【Kaggle】クロスバリデーションでの最終的なテストデータ提出方法について

前提

pythonで機械学習を勉強しており、Kaggleに参加しているものです。

クロスバリデーションを行い、テストデータを予測し予測結果をKaggleに提出する際、
分からなくなってしまったのでご教示頂きたいです。

知りたいこと

・下記コードでのfitとpredictはどのFoldが使われているのか(自動的にベストのもので学習されるのか)
・各Foldの予測値平均を予測結果として提出する方法

知りたいこと

・下記コードの場合、どのFoldで学習しpredictを行っているか(自動的にベストのものが使われるのか)
・各Foldの予測結果平均を最終的な提出物にしたい場合、どのようなコードが必要か

該当のソースコード

Python
1ソースコード
2
3test = Kaggleで最終的に予測したいデータだとし、これをpredictしsubmitとします。
4
5Fold = 4
6
7kf = KFold(n_splits=Fold, random_state=123, shuffle=True)
8params = { 'objective': 'regression', 'metric': 'rmse'}
9
10  for train_index, val_index in kf.split(x, x.index):
11        X_train = x.iloc[train_index]
12        X_test = x.iloc[val_index]
13        y_train = y.iloc[train_index]
14        y_test = y.iloc[val_index]
15        
16        lgb_train = lgb.Dataset(X_train, y_train)
17        lgb_eval = lgb.Dataset(X_test, y_test)
18 
19        clf = lgb.train(params,
20                        lgb_train,
21                        valid_sets=lgb_eval,
22                        num_boost_round=100,
23                       verbose_eval=50)
24        
25        y_pred = clf.predict(X_test)
26
27submit = clf.predict(test)
28
29ここにより詳細な情報を記載してください。
30
31データの中身についての詳細は割愛させて頂きましたが、
32KaggleのHouse Prices - Advanced Regression Techniquesで使ったコードとなります。
33pythonのverは最新です。

行動規範の内容に同意します

回答1件

cross validationは未知データに対する予測精度を評価（推測）するために用いるものであり、
最終的には全データでfitしたモデルを用いるのが普通です。

valid_setsを用いるかどうかはともかく、

python3
1lgb_ = lgb.Dataset(X, y)
2clf = lgb.train(params,
3                        lgb_ ,
4                        valid_sets=lgb_eval,
5                        num_boost_round=100,
6                       verbose_eval=50)
7        ```

投稿2022/04/20 00:39

編集2022/04/20 10:56