質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

Q&A

解決済

2回答

4121閲覧

<Python>scikit-learnでのランダムフォレストによる分類

evanstera

総合スコア12

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

0グッド

0クリップ

投稿2017/12/18 05:03

scikit-learnのランダムフォレストを用いてCSVの教師データからモデルを作成し,分類の精度を確認したいのですが,うまくいきません.
以下ソースコードで,「ValueError: Expected 2D array, got 1D array instead」というエラーが出ます.

Python

1from sklearn.metrics import roc_auc_score 2from sklearn.model_selection import train_test_split 3from sklearn.ensemble import RandomForestClassifier 4import numpy as np 5import pandas as pd 6 7data = "training_data.csv" 8 9dataset = pd.read_csv(data) 10X = dataset['trains'] 11y = dataset.drop('trains', axis=1) 12X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=777) 13 14clf = RandomForestClassifier(random_state=777) 15 16clf.fit(X_train, y_train) 17 18print(clf.predict(y_train))

こんなCSVを用いています.

aveX,aveY,aveZ,RMS,varX,varY,varZ,covXY,covYZ,covXZ,corrXY,corrYZ,corrXZ,trains 0.174521142,1.091392769,-0.015052209,1.105360744,0.403359869,1.142212621,0.401356592,0.107724217,0.323616591,0.133210998,0.158706066,0.477960604,0.331076639,1 -0.053671519,1.052105459,0.017562358,1.053619934,0.446241006,2.620554967,0.876192446,-0.025351497,0.638550274,0.191147467,-0.023443488,0.421404051,0.305691989,1 0.158956146,1.170368195,0.127553558,1.187980925,0.529209075,2.294817774,0.795357759,0.088002,0.479331126,0.080396431,0.079855493,0.354797269,0.123920132,1 0.095172882,0.897616577,-0.015754445,0.902785467,0.356852693,1.51674976,0.857715021,0.173410711,0.335898911,0.10233454,0.235708075,0.294496488,0.184972107,1 0.019842784,1.121092987,0.212302144,1.141190353,0.444632151,1.877701859,0.829773169,0.127870552,0.512598522,0.096943202,0.139944808,0.410661829,0.159601598,1 0.121224279,0.763733905,0.020898404,0.773577111,0.205400343,1.47245394,0.377930241,0.012081057,0.395860385,0.012981988,0.021967645,0.530658788,0.046594517,1 0.067505137,0.999517314,0.191084035,1.019855339,0.227965604,1.719978273,0.291210774,-0.001409253,0.345420238,-0.034355389,-0.002250572,0.488070523,-0.133338784,1 0.043430328,0.89195989,0.268633016,0.932546157,0.238372388,1.547041161,0.30763242,0.106904275,0.328057766,-0.015017282,0.176041947,0.475535932,-0.055455844,1 0.045274607,1.171694692,0.244033051,1.197693772,0.335222889,1.751498378,0.245725613,0.053271552,0.125964389,-0.042150514,0.069522223,0.192007282,-0.146862471,1 0.121876272,0.672702281,0.053657786,0.685756037,0.155201875,1.838597687,0.259037571,0.140687104,0.268010404,0.010001267,0.263367665,0.388353228,0.049879852,1

アドバイスをお願いいたします.説明不十分な点があればご指摘ください.

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答2

0

train_test_splitの第一引数と第二引数が逆ではないでしょうか。

投稿2017/12/18 05:50

ka_ei

総合スコア207

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

0

ベストアンサー

最初のX,yが逆な気がします。

でもエラーの解決法は2つ、

  1. X = dataset[['trains']]
  2. X = dataset['trains'].values.reshape(-1,1)

これだとラベルを入力として、データを学習します。
(あまりないことですが、それが意図した振る舞いなら以下は無視してください。)

慣用的にX,yを入れ替えたほうがよい可能性がありますが…

python

1X = dataset.drop('trains', axis=1) 2y = dataset[['trains']]

投稿2017/12/18 06:20

mkgrei

総合スコア8560

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問