sklearnのtest_splitについて

sklearnの関数で訓練データとテストデータに分けるものがあります。
data_train, data_test, label_train,
label_test = train_test_split(digits.data, digits.target)
このように書けるのですがなぜ訓練データとテストデータに分けるだけなのに4つに分けているのでしょうか？
最近ディープラーニングについて勉強したばかりでこのことがよく分からず質問しました。
よろしくお願いします。

行動規範の内容に同意します

回答1件

ベストアンサー

digits.data は特徴量データです。 digits.target は目的変数（教師データ＝模範解答）です。
特徴量データと目的変数の並び順は一致していて、特徴量1つめのラベル（＝目的変数＝教師データ）は1つめに入ってます。つまり digits.data[0] のラベルが digits.target［０］ ということになります。

特徴量を訓練データとテストデータに分けたら、同じようにラベルも訓練データとテストデータに分ける必要があります。
digits.data を２つに分けて、この分け方と同じ分け方で digits.target も２つに分けると言うことです。このため、結果は4つ得られます。

特徴量訓練データ, 特徴量テストデータ, ラベル訓練データ, ラベルテストデータ = train_test_split(特徴量データ, ラベルデータ)

こんなイメージです。

投稿2017/02/02 04:56

shimizukawa

総合スコア1847

-Sh1r0

2017/02/03 04:14

回答ありがとうございます。そのように分かれていたんですね！構造体などでラベルも一緒に入っていると思っていました

行動規範の内容に同意します

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう！

sklearnのtest_splitについて

関連した質問