特徴量が独立していないデータの機械学習について

教えて頂きたいこと

あるデータの特徴量が独立しているのではなく、あるグループごとに関連している場合の
機械学習での処理方法についてアドバイスを頂きたいです。

簡単な例を挙げます。
物質Aと物質Bを色々な割合で混ぜ合わせた水溶液の物性データをもとに
未知の割合で混ぜ合わせた水溶液の物性を予測したいとします。
このとき、データは
物質A 物質B 物性　
1% 1% 0.5
2% 2.5% 2.1
のようになるかと思います。
これだけであれば、物質Aと物質Bの濃度を特徴量として物性を予測する
モデルが組めるかと思います。
しかしこのとき、物質A,Bもデータで表せたら（例えば分子量や融点のような固有の値）
この予測モデルは物質C,Dにも拡張できるかもしれません。
（もちろんやってみないとわからないですが）

そのようなことを行いたい場合、各列の情報は独立しているわけではないので、
分子量〇〇、融点△△の物質が1%、
分子量□□、融点××の物質が2%、
このときの物性が～～
というまとまりがひとつのデータになります。

こういった形のデータをデータセットとして表す場合、どのようにすればよいのでしょうか。
またこういったデータを処理する場合に汎用される機械学習のモデル等は
どういったものがあるでしょうか。

参考になるサイトや書籍だけでも教えて頂けますと嬉しいです。

hayataka2049

2020/04/20 13:48

この手の問題は機械学習で解くよりはシミュレーションした方が良いのでは？

chem_search

2020/04/20 14:11

おっしゃる通り、理想的にはシミュレーションのほうが良い問題ではあると思っています。ですが、質問の例に挙げたものはだいぶ単純化した例でして、現在化学系の企業に研究職として勤務しているのですが、多成分系でのシミュレーションを実際にやろうとすると、いくつかの前提をおかなければいけなかったり、その系に適したシミュレーションが可能なソフトなどを用意しなければならない等、ハードルが高いと感じています。また、シミュレーションでは純粋な物質を用いて計算しますが、実際の検討を行う際には純度100%ということはありえず、何かしらの測定値などを使ってデータを整理したりなどするため、どうしても実際のデータと乖離が生じます。質問内容のような形で機械学習を行い、未測定の物性を計算できれば業務の簡略化等に役立つと考え、質問させていただきました。