PythonのPandas（ix）を用いたときのランダムフォレストのデータ入力値についての質問

Question

```Python
X_train = features_df.ix[:, 1:]
y_train = features_df['labels']

forest = RandomForestClassifier(min_samples_leaf=3, random_state=0)
forest.fit(X_train, y_train)
```
```ここに言語を入力
#X_train
           1         2         3         4         5         6         7  
0   0.000031  0.000132  0.000123  0.000072  0.000034  0.000429  0.000026   
1   0.000069  0.000347  0.000129  0.000088  0.000056  0.000622  0.000042   
2   0.000085  0.000393  0.000099  0.000067  0.000051  0.000570  0.000041   
3   0.000070  0.000385  0.000095  0.000062  0.000039  0.000455  0.000035   
4   0.000035  0.000229  0.000093  0.000064  0.000018  0.000274  0.000017   
5   0.000015  0.000170  0.000092  0.000061  0.000030  0.000304  0.000019     
..       ...       ...       ...       ...       ...       ...       ...     
67  0.001043  0.000010  0.000012  0.000010  0.000010  0.000046  0.000025   
68  0.000963  0.000007  0.000025  0.000006  0.000005  0.000031  0.000024   
69  0.000074  0.000014  0.000012  0.000009  0.000016  0.000056  0.000053   
70  0.000750  0.000005  0.000014  0.000009  0.000016  0.000063  0.000077   
71  0.001324  0.000011  0.000012  0.000017  0.000004  0.000028  0.000021   

```
以上のようなコードで、ランダムフォレストに説明変数（X_train）を入力したときに、X_trainはどのようなデータを１個として入力されるのでしょうか。

例：0.000031を１個のデータとするのか、[0.000031  0.000132  0.000123  0.000072  0.000034  0.000429  0.000026]の７個を１つのデータとして見るのか

よろしくお願い致します。

Accepted Answer

RandomForestClassifier

は、

scikit-learn.ensemble

を利用している前提でお答えしますね。
(つまり、省略されたコード部分にfrom sklearn.ensemble import RandomForestClassifierと
書いてある事を期待しています。)


基本的には、

[0.000031  0.000132  0.000123  0.000072  0.000034  0.000429  0.000026]

の７個を１つのデータとして見ています。
一行がそれぞれのデータとして扱われ、行単位の正解ラベルがy_trainに格納される事を期待しています。

---
以下は蛇足ですが、このような疑問を持ったのはy_trainを出力すると、横方向のデータに見えるためではないかと思料します。

Python学習し始めてよく引っかかるのは、各関数で期待されているIN/OUTのデータの形が厳密だったり、ユルユルだったりするので、関数別のデータ形についての情報が日本語でわかりやすくまとまっているとよいはずなんですよね。

だれか、まとめてくれないかな。。。

---
追伸
質問のコアに影響する部分のImport宣言は省略しないほうがよいかもしれません。

関連した質問