【データ分析】突然変異の起こりやすい条件を分析したい(ロジット分析)

ある生物のデータの分析を行っております。
分析初心者なので初歩的なミスなどあるかもしれませんが、お教えいただけますと幸いです。

データセットにはその生物の
・とある個体Aの主要な特徴5つ(self1,self2,self3,self4,self5)
・その個体Aの母親の主要な特徴5つ(mother1,mother2,mother3,mother4,mother5)
・その個体Aの父親の主要な特徴5つ(father1,father2,father3,father4,father5)
・その他交尾時の父母の年齢など
というカラムに対し、データIDがindexとして5万程度のデータが格納されています。
主要な特徴は、その生物にありがちな100程度の項目から強く特徴が認められた5つが選ばれます。
(特徴はテキストで入っています)

分析の目的は、その100程度の特徴から突然変異的に生まれる特徴があり(例として「角が生えない」だとします)、角が生えない子供を生みやすい父母の特徴を明らかにしたいと思っております。
5万データのうち、3000程度が角が生えないというデータです。

そこで分析方法について相談させていただきたいです。

私の持っている仮説は、父母の持つぞれぞれ5個の特徴の中に特定の特徴が1個ずつ入っていた場合に、角が生えない子供が生まれやすいのではないかというものです。(例えば、父が肌が固く、母がしっぽが短い場合)

この仮説を検証するため、
非説明変数を角が生えている子供かどうかのダミー変数、
説明変数を100×100の特徴の掛け合わせのダミー変数
(父が特徴34を持ち母が特徴92を持つ時1となる変数s3492のような要領で生成します)、
とその他交尾時の父母の年齢などを用いて、
ロジット分析を行おうと思っております。

ただこの方法ですと書いた通り1万個のダミー変数を定義し分析を行うことになります。
まだやっていないのでわからないのですが5万データで変数1万個の分析など聞いたことがありません。
メモリが耐えきれるのかかなり怪しいかと思われます。

そこで分析手法についてアドバイスをいただけますと幸いです。
ツールは普段PythonやStataを用いておりますが、他のツールでも構いません。
(タグにはStataがなかったので分析系の言語としてRを記入しました。使える訳ではありません。)

よろしくお願い致します。

行動規範の内容に同意します

回答3件

ベストアンサー

説明変数の数は100×100ではなく、100+100で済むと思います。100×100というのは父方の特徴と母方の特徴の組み合わせを網羅するために必要な最低限のデータ件数を意味します。
例えば、父に皮膚が固いという変数、母に尾が短いという変数がある場合、説明変数自体は1+1で済ませます。そのかわり、データの組み合わせ(1,0)、(1,1)、(0,0)、(0,1)はデータ件数側でカバーさせれば良いのではないかという発想です。ただ仮に1万パターン必要とするとデータ件数5万は少し足りない気がします。単純計算で1パターンに5件しかないことになるためです。説明変数を削れば網羅すべき組み合わせが減るので1パターン当たりのデータ件数が増えるでしょうから、用途に応じて調整したほうがいいでしょう

投稿2018/01/17 18:29

編集2018/01/17 18:54

R.Shigemori

総合スコア3376

pockygame

2018/01/18 00:30

ご回答ありがとうございます。ぼんやりとおっしゃっていることは分かるのですが、ちゃんと理解出来ていないのでもう少し詳しく伺ってもよろしいでしょうか？データ件数側でカバーというのは、データを編集して行を増やして対応するというような意味でしょうか？それとも今のままでも組み合わせについては考慮されてる式になっている、という意味でしょうか？説明変数の数は100から30程度まで削れそうです。上記についてもう少しお教えいただけますと幸いです。よろしくお願い致します。

R.Shigemori

2018/01/18 11:53

ご質問の『データを編集して行を増やす』についていうとyesです。ただし、データの仕様がわからないので、確定的ではありません。言いたかったことは、説明変数の表現方法として、父方に角があると尾が短いの組み合わせをダミー変数として表現するより説明変数は2種類にして行のほうで表現したほうが効率的ではないか、というものです。データの加工の要否は仕様次第なので回答に含めていませんことを了解ください

pockygame

2018/01/19 01:23

再度ご回答ありがとうございます。申し訳ありません。やはりデータ加工の方法が見えません。。現在のデータセットは、特定個体のNo、その個体が突然変異が起きたかどうかのダミー、母親の持つ特徴×5、父親の持つ特徴×5という形式になっています。特徴の変数はダミー化することは出来ます。こちらを踏まえ、もしまたご回答いただけるならお教えいただけますと幸いです。

行動規範の内容に同意します

データを部分的に切り出すか、説明変数を減らすべきです。

常に1とか、常に0の変数を削ってもそんなに多いのですか？

ニューラルネットワークならバッチで処理すればフィッティングはできます。

投稿2018/01/17 11:20

mkgrei

総合スコア8560

pockygame

2018/01/18 00:28

ご回答ありがとうございます。常に1や0のもの、ほとんど1や0のものを省いてみたところ100→30程度まで減らせました。ありがとうございます！

行動規範の内容に同意します

以下はあくまで思い付きレベルですので、的を外していたならそのまま読み捨てていただければと思います。

「特徴」が母親由来なのか父親由来なのかの区別はどうしても必要でしょうか。仮に両親のどちらかにその特徴があるか否かという観点でデータをまとめ直すことができれば、データ量を大きく減らせそうな気がします。
たとえば「尾が短い」個体は必ず「目が赤い」、「尾が長い」個体は必ず「目が黒い」という状況があったとします。この場合、分析には「尾が短い」の特徴だけに着目すればいいことにならないでしょうか。各個体の「特徴」を「あるなし表」にまとめ、クラスター分析によって似たような形質分布を示すものをまとめ、次のロジット分析では各クラスターを代表する特徴のみを使ってみるということはできないでしょうか。

投稿2018/01/18 03:53