質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

90.53%

  • Python

    7890questions

    Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

<Python>scikit-learnでのランダムフォレストによる分類

解決済

回答 2

投稿

  • 評価
  • クリップ 0
  • VIEW 399

evanstera

score 4

scikit-learnのランダムフォレストを用いてCSVの教師データからモデルを作成し,分類の精度を確認したいのですが,うまくいきません.
以下ソースコードで,「ValueError: Expected 2D array, got 1D array instead」というエラーが出ます.

from sklearn.metrics import roc_auc_score
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
import numpy as np
import pandas as pd

data = "training_data.csv"

dataset = pd.read_csv(data)
X = dataset['trains']
y  = dataset.drop('trains', axis=1)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=777)

clf = RandomForestClassifier(random_state=777)

clf.fit(X_train, y_train)

print(clf.predict(y_train))


こんなCSVを用いています.

aveX,aveY,aveZ,RMS,varX,varY,varZ,covXY,covYZ,covXZ,corrXY,corrYZ,corrXZ,trains
0.174521142,1.091392769,-0.015052209,1.105360744,0.403359869,1.142212621,0.401356592,0.107724217,0.323616591,0.133210998,0.158706066,0.477960604,0.331076639,1
-0.053671519,1.052105459,0.017562358,1.053619934,0.446241006,2.620554967,0.876192446,-0.025351497,0.638550274,0.191147467,-0.023443488,0.421404051,0.305691989,1
0.158956146,1.170368195,0.127553558,1.187980925,0.529209075,2.294817774,0.795357759,0.088002,0.479331126,0.080396431,0.079855493,0.354797269,0.123920132,1
0.095172882,0.897616577,-0.015754445,0.902785467,0.356852693,1.51674976,0.857715021,0.173410711,0.335898911,0.10233454,0.235708075,0.294496488,0.184972107,1
0.019842784,1.121092987,0.212302144,1.141190353,0.444632151,1.877701859,0.829773169,0.127870552,0.512598522,0.096943202,0.139944808,0.410661829,0.159601598,1
0.121224279,0.763733905,0.020898404,0.773577111,0.205400343,1.47245394,0.377930241,0.012081057,0.395860385,0.012981988,0.021967645,0.530658788,0.046594517,1
0.067505137,0.999517314,0.191084035,1.019855339,0.227965604,1.719978273,0.291210774,-0.001409253,0.345420238,-0.034355389,-0.002250572,0.488070523,-0.133338784,1
0.043430328,0.89195989,0.268633016,0.932546157,0.238372388,1.547041161,0.30763242,0.106904275,0.328057766,-0.015017282,0.176041947,0.475535932,-0.055455844,1
0.045274607,1.171694692,0.244033051,1.197693772,0.335222889,1.751498378,0.245725613,0.053271552,0.125964389,-0.042150514,0.069522223,0.192007282,-0.146862471,1
0.121876272,0.672702281,0.053657786,0.685756037,0.155201875,1.838597687,0.259037571,0.140687104,0.268010404,0.010001267,0.263367665,0.388353228,0.049879852,1

アドバイスをお願いいたします.説明不十分な点があればご指摘ください.

  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

回答 2

+1

train_test_splitの第一引数と第二引数が逆ではないでしょうか。

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

checkベストアンサー

0

最初のX,yが逆な気がします。

でもエラーの解決法は2つ、

  1. X = dataset[['trains']]
  2. X = dataset['trains'].values.reshape(-1,1)

これだとラベルを入力として、データを学習します。
(あまりないことですが、それが意図した振る舞いなら以下は無視してください。)

慣用的にX,yを入れ替えたほうがよい可能性がありますが…

X = dataset.drop('trains', axis=1)
y = dataset[['trains']]

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

15分調べてもわからないことは、teratailで質問しよう!

  • ただいまの回答率 90.53%
  • 質問をまとめることで、思考を整理して素早く解決
  • テンプレート機能で、簡単に質問をまとめられる

関連した質問

同じタグがついた質問を見る

  • Python

    7890questions

    Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。