質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
R

R言語は、「S言語」をオープンソースとして実装なおした、統計解析向けのプログラミング言語です。 計算がとても速くグラフィックも充実しているため、数値計算に向いています。 文法的には、統計解析部分はS言語を参考にしており、データ処理部分はSchemeの影響を受けています。 世界中の専門家が開発に関わり、日々新しい手法やアルゴリズムが追加されています。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

Q&A

解決済

3回答

366閲覧

【データ分析】突然変異の起こりやすい条件を分析したい(ロジット分析)

pockygame

総合スコア17

R

R言語は、「S言語」をオープンソースとして実装なおした、統計解析向けのプログラミング言語です。 計算がとても速くグラフィックも充実しているため、数値計算に向いています。 文法的には、統計解析部分はS言語を参考にしており、データ処理部分はSchemeの影響を受けています。 世界中の専門家が開発に関わり、日々新しい手法やアルゴリズムが追加されています。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

0グッド

4クリップ

投稿2018/01/17 08:23

ある生物のデータの分析を行っております。
分析初心者なので初歩的なミスなどあるかもしれませんが、お教えいただけますと幸いです。

データセットにはその生物の
・とある個体Aの主要な特徴5つ(self1,self2,self3,self4,self5)
・その個体Aの母親の主要な特徴5つ(mother1,mother2,mother3,mother4,mother5)
・その個体Aの父親の主要な特徴5つ(father1,father2,father3,father4,father5)
・その他交尾時の父母の年齢など
というカラムに対し、データIDがindexとして5万程度のデータが格納されています。
主要な特徴は、その生物にありがちな100程度の項目から強く特徴が認められた5つが選ばれます。
(特徴はテキストで入っています)

分析の目的は、その100程度の特徴から突然変異的に生まれる特徴があり(例として「角が生えない」だとします)、角が生えない子供を生みやすい父母の特徴を明らかにしたいと思っております。
5万データのうち、3000程度が角が生えないというデータです。

そこで分析方法について相談させていただきたいです。

私の持っている仮説は、父母の持つぞれぞれ5個の特徴の中に特定の特徴が1個ずつ入っていた場合に、角が生えない子供が生まれやすいのではないかというものです。(例えば、父が肌が固く、母がしっぽが短い場合)

この仮説を検証するため、
非説明変数を角が生えている子供かどうかのダミー変数、
説明変数を100×100の特徴の掛け合わせのダミー変数
(父が特徴34を持ち母が特徴92を持つ時1となる変数s3492のような要領で生成します)、
とその他交尾時の父母の年齢などを用いて、
ロジット分析を行おうと思っております。

ただこの方法ですと書いた通り1万個のダミー変数を定義し分析を行うことになります。
まだやっていないのでわからないのですが5万データで変数1万個の分析など聞いたことがありません。
メモリが耐えきれるのかかなり怪しいかと思われます。

そこで分析手法についてアドバイスをいただけますと幸いです。
ツールは普段PythonやStataを用いておりますが、他のツールでも構いません。
(タグにはStataがなかったので分析系の言語としてRを記入しました。使える訳ではありません。)

よろしくお願い致します。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答3

0

ベストアンサー

説明変数の数は100×100ではなく、100+100で済むと思います。100×100というのは父方の特徴と母方の特徴の組み合わせを網羅するために必要な最低限のデータ件数を意味します。
例えば、父に皮膚が固いという変数、母に尾が短いという変数がある場合、説明変数自体は1+1で済ませます。そのかわり、データの組み合わせ(1,0)、(1,1)、(0,0)、(0,1)はデータ件数側でカバーさせれば良いのではないかという発想です。ただ仮に1万パターン必要とするとデータ件数5万は少し足りない気がします。単純計算で1パターンに5件しかないことになるためです。説明変数を削れば網羅すべき組み合わせが減るので1パターン当たりのデータ件数が増えるでしょうから、用途に応じて調整したほうがいいでしょう

投稿2018/01/17 18:29

編集2018/01/17 18:54
R.Shigemori

総合スコア3376

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

pockygame

2018/01/18 00:30

ご回答ありがとうございます。 ぼんやりとおっしゃっていることは分かるのですが、ちゃんと理解出来ていないのでもう少し詳しく伺ってもよろしいでしょうか? データ件数側でカバーというのは、データを編集して行を増やして対応するというような意味でしょうか? それとも今のままでも組み合わせについては考慮されてる式になっている、という意味でしょうか? 説明変数の数は100から30程度まで削れそうです。 上記についてもう少しお教えいただけますと幸いです。 よろしくお願い致します。
R.Shigemori

2018/01/18 11:53

ご質問の『データを編集して行を増やす』についていうとyesです。ただし、データの仕様がわからないので、確定的ではありません。 言いたかったことは、説明変数の表現方法として、父方に角があると尾が短いの組み合わせをダミー変数として表現するより説明変数は2種類にして行のほうで表現したほうが効率的ではないか、というものです。データの加工の要否は仕様次第なので回答に含めていませんことを了解ください
pockygame

2018/01/19 01:23

再度ご回答ありがとうございます。 申し訳ありません。やはりデータ加工の方法が見えません。。 現在のデータセットは、 特定個体のNo、その個体が突然変異が起きたかどうかのダミー、母親の持つ特徴×5、父親の持つ特徴×5という形式になっています。 特徴の変数はダミー化することは出来ます。 こちらを踏まえ、もしまたご回答いただけるならお教えいただけますと幸いです。
guest

0

データを部分的に切り出すか、説明変数を減らすべきです。

常に1とか、常に0の変数を削ってもそんなに多いのですか?

ニューラルネットワークならバッチで処理すればフィッティングはできます。

投稿2018/01/17 11:20

mkgrei

総合スコア8560

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

pockygame

2018/01/18 00:28

ご回答ありがとうございます。 常に1や0のもの、ほとんど1や0のものを省いてみたところ100→30程度まで減らせました。 ありがとうございます!
guest

0

以下はあくまで思い付きレベルですので、的を外していたならそのまま読み捨てていただければと思います。

  1. 「特徴」が母親由来なのか父親由来なのかの区別はどうしても必要でしょうか。仮に両親のどちらかにその特徴があるか否かという観点でデータをまとめ直すことができれば、データ量を大きく減らせそうな気がします。
  2. たとえば「尾が短い」個体は必ず「目が赤い」、「尾が長い」個体は必ず「目が黒い」という状況があったとします。この場合、分析には「尾が短い」の特徴だけに着目すればいいことにならないでしょうか。各個体の「特徴」を「あるなし表」にまとめ、クラスター分析によって似たような形質分布を示すものをまとめ、次のロジット分析では各クラスターを代表する特徴のみを使ってみるということはできないでしょうか。

投稿2018/01/18 03:53

KojiDoi

総合スコア13671

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

pockygame

2018/01/18 04:48

ご回答ありがとうございます。 どちらもおっしゃる通りかと思います。 1は仮説の1つとして別途検証します。 2も事前に各変数の内容を調べ似ているものがあればそれにより変数を減らそうと思います。 ありがとうございます!
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問