KFoldとStratifiedKFoldの引数について

以下のコードについて質問がります。

python
1import numpy as np
2from sklearn.model_selection import KFold
3
4x = np.array([[1, 2], [3, 4], [1, 2], [3, 4], [3, 4], [3, 4], [3, 4], [3, 4], [3, 4], [3, 4]])
5y = np.array([1, 1, 1, 0, 0, 0, 0, 1, 1, 1])
6
7kf = KFold(n_splits=4)
8for train_idx, test_idx in kf.split(x, y):　#★★★
9    print("train_idx:", train_idx, "test_idx:", test_idx)

このコードの「★★★」ように、 kf.splitの引数に、（ｘ）と（ｙ）の配列を入れていますが、このｙは必要なのでしょうか。StratifiedKFoldについても同様で、目的変数であるｙについてはｘとセットですから、ｘのインデックスを選んだら、必ずｙもそれに対応したインデックスになっているはずです。実際、公式ドキュメントは引数ｙはデフォルトでnoneになっていますし、手元のコードも、

python
1for train_idx, test_idx in kf.split(x):　#★★★
2    print("train_idx:", train_idx, "test_idx:", test_idx)

これで正しく動いているように見えます。
しかし、引数に説明変数と目的変数の両方をいれているサンプルコードが多くあります。
参考書でも、本によって片方だけだったり両方だったりするので、混乱しています。

なぜ、説明変数だけで分割してはいけない場合があるのでしょう。

行動規範の内容に同意します

回答1件

ベストアンサー

KFold.splitの場合はyはオプション扱いです。書かなくても動きますが、可読性の観点からすると書いておいた方が良いでしょう。また、後述の理由（StratifiedKFold.splitでは必須）から、書いておいた方が気軽にKFoldとStratifiedKFoldを入れ替えられる（互換性のある）コードになります。

sklearn.model_selection.KFold — scikit-learn 0.21.3 documentation

で、StratifiedKFold.splitでは必須の位置引数です。Stratification is done based on the y labels.と書いてある通り、yがないとStratification（和訳するなら層別化）ができないということです。

sklearn.model_selection.StratifiedKFold — scikit-learn 0.21.3 documentation

投稿2019/11/30 23:18