機械学習　データ分割方法について

Question

### 実現したいこと
機械学習のデータ分割方法を理解する。

### 試したこと
機械学習の勉強をしているのですが、モデルの学習を行うためにデータ分割を行う場合は
訓練用・検証用・評価用に３分割するという認識でした。

訓練用：学習時に重みの更新
検証用：ハイパーパラメータのチューニング
評価用：モデルの精度評価

私自身もそのようにしていたのですが、ネットで解説記事を見ていると、データを３分割せずに、
２分割している記事がありました。

データを３分割したり、２分割する場合の違いを教えていただけないでしょうか。
（理由・使い分けの基準など）

備考
言語：Python

追記
大変失礼いたしました。ご指摘いただいた通り参考にしたサイトのリンクを載せます。

データを訓練用・検証用・評価用に分けるという内容について参考にしたサイト
https://nisshingeppo.com/ai/data-split/

学習データとテストデータに分割する（2分割している）サイト
（データ準備の箇所で分割）
https://datawokagaku.com/lightgbm/#i-3

学習データ＝訓練データ
評価データ＝テストデータ
のような認識をしております。

Accepted Answer

[LightGBMを超わかりやすく解説(理論+実装)【機械学習入門33】](https://datawokagaku.com/lightgbm/#i-3)の補足の欄に下記記述がありました。
> 今回の例では，splitしたテストデータを検証データとして使ってearly stoppingをしましたが，この場合検証データに対して過学習となっていることに注意してください． 最終的なモデルとして相応しいかどうかは，kfoldCVで汎化性能を測って決めましょう．

上記理由（汎化性能はKfoldで測る）により所謂テストデータは用意していないのだと思います。

Answer

> 訓練用：学習時に重みの更新
> 検証用：ハイパーパラメータのチューニング

なのですから、ハイパーパラメータのチューニングを、データを評価した結果を使ってするのであれば、検証用のデータが必要になります。
ハイパーパラメータのチューニングをしないとか、他の方法を使ってするのであれば、検証用のデータは不要です。

訓練用とか、テスト用のデータをつかってチューニングするここもできますが、同じデータを使ってしまうと効果が減るので、通常はやりません。

Answer

> 訓練用：学習時に重みの更新
> 検証用：ハイパーパラメータのチューニング
> 評価用：モデルの精度評価

【「重み」も「ハイパーパラメータ」も，その処理アルゴリズム（学習器）のパラメータである】と考えるとき，このあなたの区分のうちの上側２項目は１つの項目である．
そしたらデータも２分割になる．
それだけの話なのではないでしょうか？

> 検証用：ハイパーパラメータのチューニング

「ハイパーパラメータ」と「重み」は独立ではないのだから，そもそもとしてこの区分の存在が変な話と思えます．
十分な（極論，無限の）時間を学習器のチューニングに費やせるならば要らないステップなハズ．
そこらへんの背景事情等によって考え方（というか，やりかた）が変わるのではないでしょうか？

---

あるいは「ハイパーパラメータ」が定数扱いな世界を考えてみればどうですか？
例えば，最初から「せっかくだから俺はこれこれこういう形の３層のニューラルネットワークをどうの！」とかなんとかいう話においては「ハイパーパラメータ」とか呼んでいるブツを探索する必要が無いわけで．

実現したいこと

試したこと

関連した質問