ある生物のデータの分析を行っております。
分析初心者なので初歩的なミスなどあるかもしれませんが、お教えいただけますと幸いです。
データセットにはその生物の
・とある個体Aの主要な特徴5つ(self1,self2,self3,self4,self5)
・その個体Aの母親の主要な特徴5つ(mother1,mother2,mother3,mother4,mother5)
・その個体Aの父親の主要な特徴5つ(father1,father2,father3,father4,father5)
・その他交尾時の父母の年齢など
というカラムに対し、データIDがindexとして5万程度のデータが格納されています。
主要な特徴は、その生物にありがちな100程度の項目から強く特徴が認められた5つが選ばれます。
(特徴はテキストで入っています)
分析の目的は、その100程度の特徴から突然変異的に生まれる特徴があり(例として「角が生えない」だとします)、角が生えない子供を生みやすい父母の特徴を明らかにしたいと思っております。
5万データのうち、3000程度が角が生えないというデータです。
そこで分析方法について相談させていただきたいです。
私の持っている仮説は、父母の持つぞれぞれ5個の特徴の中に特定の特徴が1個ずつ入っていた場合に、角が生えない子供が生まれやすいのではないかというものです。(例えば、父が肌が固く、母がしっぽが短い場合)
この仮説を検証するため、
非説明変数を角が生えている子供かどうかのダミー変数、
説明変数を100×100の特徴の掛け合わせのダミー変数
(父が特徴34を持ち母が特徴92を持つ時1となる変数s3492のような要領で生成します)、
とその他交尾時の父母の年齢などを用いて、
ロジット分析を行おうと思っております。
ただこの方法ですと書いた通り1万個のダミー変数を定義し分析を行うことになります。
まだやっていないのでわからないのですが5万データで変数1万個の分析など聞いたことがありません。
メモリが耐えきれるのかかなり怪しいかと思われます。
そこで分析手法についてアドバイスをいただけますと幸いです。
ツールは普段PythonやStataを用いておりますが、他のツールでも構いません。
(タグにはStataがなかったので分析系の言語としてRを記入しました。使える訳ではありません。)
よろしくお願い致します。
回答3件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2018/01/18 00:30
2018/01/18 11:53
2018/01/19 01:23