<Python>scikit-learnでのランダムフォレストによる分類

scikit-learnのランダムフォレストを用いてCSVの教師データからモデルを作成し，分類の精度を確認したいのですが，うまくいきません．
以下ソースコードで，「ValueError: Expected 2D array, got 1D array instead」というエラーが出ます．

Python
1from sklearn.metrics import roc_auc_score
2from sklearn.model_selection import train_test_split
3from sklearn.ensemble import RandomForestClassifier
4import numpy as np
5import pandas as pd
6
7data = "training_data.csv"
8
9dataset = pd.read_csv(data)
10X = dataset['trains']
11y  = dataset.drop('trains', axis=1)
12X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=777)
13
14clf = RandomForestClassifier(random_state=777)
15
16clf.fit(X_train, y_train)
17
18print(clf.predict(y_train))

こんなCSVを用いています．

aveX,aveY,aveZ,RMS,varX,varY,varZ,covXY,covYZ,covXZ,corrXY,corrYZ,corrXZ,trains
0.174521142,1.091392769,-0.015052209,1.105360744,0.403359869,1.142212621,0.401356592,0.107724217,0.323616591,0.133210998,0.158706066,0.477960604,0.331076639,1
-0.053671519,1.052105459,0.017562358,1.053619934,0.446241006,2.620554967,0.876192446,-0.025351497,0.638550274,0.191147467,-0.023443488,0.421404051,0.305691989,1
0.158956146,1.170368195,0.127553558,1.187980925,0.529209075,2.294817774,0.795357759,0.088002,0.479331126,0.080396431,0.079855493,0.354797269,0.123920132,1
0.095172882,0.897616577,-0.015754445,0.902785467,0.356852693,1.51674976,0.857715021,0.173410711,0.335898911,0.10233454,0.235708075,0.294496488,0.184972107,1
0.019842784,1.121092987,0.212302144,1.141190353,0.444632151,1.877701859,0.829773169,0.127870552,0.512598522,0.096943202,0.139944808,0.410661829,0.159601598,1
0.121224279,0.763733905,0.020898404,0.773577111,0.205400343,1.47245394,0.377930241,0.012081057,0.395860385,0.012981988,0.021967645,0.530658788,0.046594517,1
0.067505137,0.999517314,0.191084035,1.019855339,0.227965604,1.719978273,0.291210774,-0.001409253,0.345420238,-0.034355389,-0.002250572,0.488070523,-0.133338784,1
0.043430328,0.89195989,0.268633016,0.932546157,0.238372388,1.547041161,0.30763242,0.106904275,0.328057766,-0.015017282,0.176041947,0.475535932,-0.055455844,1
0.045274607,1.171694692,0.244033051,1.197693772,0.335222889,1.751498378,0.245725613,0.053271552,0.125964389,-0.042150514,0.069522223,0.192007282,-0.146862471,1
0.121876272,0.672702281,0.053657786,0.685756037,0.155201875,1.838597687,0.259037571,0.140687104,0.268010404,0.010001267,0.263367665,0.388353228,0.049879852,1

アドバイスをお願いいたします．説明不十分な点があればご指摘ください．

行動規範の内容に同意します

回答2件

train_test_splitの第一引数と第二引数が逆ではないでしょうか。

投稿2017/12/18 05:50

ka_ei

総合スコア207

ベストアンサー

最初のX,yが逆な気がします。

でもエラーの解決法は2つ、

X = dataset[['trains']]
X = dataset['trains'].values.reshape(-1,1)

これだとラベルを入力として、データを学習します。
（あまりないことですが、それが意図した振る舞いなら以下は無視してください。）

慣用的にX,yを入れ替えたほうがよい可能性がありますが…

python
1X = dataset.drop('trains', axis=1)
2y = dataset[['trains']]

投稿2017/12/18 06:20

mkgrei

総合スコア8560

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう！

<Python>scikit-learnでのランダムフォレストによる分類

関連した質問