機械学習訓練データ、検証データ、テストデータの割合について

Question

#XGBoostの各データの割合はどの程度にするのが一般的になりますか?
先日運用パラメータの選定でtrain/validation/test用いて検証すると良いとのアドバイスを頂きまして試そうと考えています。


現状は以下の様な割合で考えています。
- train      80%
- validation 10%
- test       10%


##併せて学習した結果の受け取り方としてはvalidationとtestデータの正解率をどの様に考えると良いでしょうか?


結果例 1
validation	正解率60%
test 		正解率60%

結果例 2
validation 	正解率70%
test 		正解率50%

結果例 3
validation 	正解率50%
test 		正解率70%


上記の様な結果例の場合、正解率の差が小さい方(結果例1)が良いと考えているのですがあっていますか?
validationとtestの差が大きい場合はどの様に調整すると良いでしょうか?

---
▼環境など
Windows 10 
python 3.7
機械学習 XGBoost 
パラメータの調整にoptunaを利用しています。

Accepted Answer

> XGBoostの各データの割合はどの程度にするのが一般的になりますか?

特に一般的というものはなく、データや目的に照らして調整するものと思います。
学習データが多いほどよい学習が出来ますが、検証、テストデータが少なければ過学習になりがちです。
強いて挙げると学習データは50%～80%くらいかなと思います。
また、単に学習/検証と分けるのではなく、クロスバリデーションなどの手法もあります。
[交差検証（cross validation／クロスバリデーション）の種類を整理してみた](https://aizine.ai/cross-validation0910/)


> 併せて学習した結果の受け取り方としてはvalidationとtestデータの正解率をどの様に考えると良いでしょうか?

> 上記の様な結果例の場合、正解率の差が小さい方(結果例1)が良いと考えているのですがあっていますか?
validationとtestの差が大きい場合はどの様に調整すると良いでしょうか?

正しいと思います。が、どちらかというと学習と検証/テストの正解率を比較するものだと思います。

差が開く場合は、
学習、検証、テスト間でのデータの分布を確認して偏っていればばらけさせる。

加えて、

結果例2（というか学習での正解率が高くて検証/テストでの正解率が低いとき）
過学習の可能性が大なので、
アルゴリズムのハイパーパラメータで過学習を抑える調整をする
学習データの比率を増やす
などが考えられます

結果例3（というか学習での正解率が低くて検証/テストでの正解率が高いとき）
ちょっと考えにくい状況ですが、各データの分布の偏りを確認する等でしょうか。

関連した質問