教えて頂きたいこと
あるデータの特徴量が独立しているのではなく、あるグループごとに関連している場合の
機械学習での処理方法についてアドバイスを頂きたいです。
簡単な例を挙げます。
物質Aと物質Bを色々な割合で混ぜ合わせた水溶液の物性データをもとに
未知の割合で混ぜ合わせた水溶液の物性を予測したいとします。
このとき、データは
物質A 物質B 物性
1% 1% 0.5
2% 2.5% 2.1
のようになるかと思います。
これだけであれば、物質Aと物質Bの濃度を特徴量として物性を予測する
モデルが組めるかと思います。
しかしこのとき、物質A,Bもデータで表せたら(例えば分子量や融点のような固有の値)
この予測モデルは物質C,Dにも拡張できるかもしれません。
(もちろんやってみないとわからないですが)
そのようなことを行いたい場合、各列の情報は独立しているわけではないので、
分子量〇〇、融点△△の物質が1%、
分子量□□、融点××の物質が2%、
このときの物性が~~
というまとまりがひとつのデータになります。
こういった形のデータをデータセットとして表す場合、どのようにすればよいのでしょうか。
またこういったデータを処理する場合に汎用される機械学習のモデル等は
どういったものがあるでしょうか。
参考になるサイトや書籍だけでも教えて頂けますと嬉しいです。