化学系でpythonによる機械学習を勉強しており、以下の様な順序が重要な特徴量の記述方法に非常に悩んでおります。
scikitlearnなどの既存ライブラリでの回帰や分類モデルの実装は一応できるようになりました。
以下、例をお示しします。
例
例えばコドンを構成する塩基(ACGU)のような、4種類のうちから3つ取ってきてはじめてコドンとして意味をなし、配列自体(成分と順序)に意味がある場合、特徴量にそれらを反映させるにはどのように数値化可能でしょうか。
特徴量に構成成分の反映はできそうですが、コドンの順列の問題(4P3)とそれを特徴量として数値化することにひたすら頭を悩ませております。
手持ちの機械学習の参考書を見ても、特徴量は一次元の数値のため、それ以前のところでつまずいています。
特徴量を
A1A2A3A4C1C2C3C4G1G2G3G4U1U2U3U4の12個として、例えばCGUの場合、
0000 1000 0100 0010
のようにして1次元の数値に落とし込むのはありでしょうか。
また、成分は別の特徴量ACGUの4つを追加して
0111
としてもいいものか悩んでいます。
どうぞ、知恵をお貸しいただきますようお願い申し上げます。
もし前提条件が不足していましたら、その旨を仰ってください。
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。