🎄teratailクリスマスプレゼントキャンペーン2024🎄』開催中!

\teratail特別グッズやAmazonギフトカード最大2,000円分が当たる!/

詳細はこちら
機械学習

機械学習は、データからパターンを自動的に発見し、そこから知能的な判断を下すためのコンピューターアルゴリズムを指します。人工知能における課題のひとつです。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

Q&A

解決済

1回答

3373閲覧

KFoldとStratifiedKFoldの引数について

fu_3823

総合スコア81

機械学習

機械学習は、データからパターンを自動的に発見し、そこから知能的な判断を下すためのコンピューターアルゴリズムを指します。人工知能における課題のひとつです。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

0グッド

0クリップ

投稿2019/11/30 22:15

以下のコードについて質問がります。

python

1import numpy as np 2from sklearn.model_selection import KFold 3 4x = np.array([[1, 2], [3, 4], [1, 2], [3, 4], [3, 4], [3, 4], [3, 4], [3, 4], [3, 4], [3, 4]]) 5y = np.array([1, 1, 1, 0, 0, 0, 0, 1, 1, 1]) 6 7kf = KFold(n_splits=4) 8for train_idx, test_idx in kf.split(x, y): #★★★ 9 print("train_idx:", train_idx, "test_idx:", test_idx)

このコードの「★★★」ように、 kf.splitの引数に、(x)と(y)の配列を入れていますが、このyは必要なのでしょうか。StratifiedKFoldについても同様で、目的変数であるyについてはxとセットですから、xのインデックスを選んだら、必ずyもそれに対応したインデックスになっているはずです。実際、公式ドキュメントは引数yはデフォルトでnoneになっていますし、手元のコードも、

python

1for train_idx, test_idx in kf.split(x): #★★★ 2 print("train_idx:", train_idx, "test_idx:", test_idx)

これで正しく動いているように見えます。
しかし、引数に説明変数と目的変数の両方をいれているサンプルコードが多くあります。
参考書でも、本によって片方だけだったり両方だったりするので、混乱しています。

なぜ、説明変数だけで分割してはいけない場合があるのでしょう。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

ベストアンサー

KFold.splitの場合はyはオプション扱いです。書かなくても動きますが、可読性の観点からすると書いておいた方が良いでしょう。また、後述の理由(StratifiedKFold.splitでは必須)から、書いておいた方が気軽にKFoldStratifiedKFoldを入れ替えられる(互換性のある)コードになります。

sklearn.model_selection.KFold — scikit-learn 0.21.3 documentation

で、StratifiedKFold.splitでは必須の位置引数です。Stratification is done based on the y labels.と書いてある通り、yがないとStratification(和訳するなら層別化)ができないということです。

sklearn.model_selection.StratifiedKFold — scikit-learn 0.21.3 documentation

投稿2019/11/30 23:18

hayataka2049

総合スコア30935

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

fu_3823

2019/12/02 06:14

どうもありがとうございました。腑に落ちました。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.36%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問