機械学習でおなじみの交差検証(クロスバリデーション)についてです。
初心者なので、見当違いなことを聞いてしまっているかもしれません。
①事前にデータを分割するべきではないのか?
基本的に機械学習では、データをトレーニングデータとテストデータに分割するものだと考えているのですが、本やWebサイトに描かれている交差検証の解説では、その分割が行われていません。これは、内部で勝手に分割してくれているからだと考えているのですが、厳密にテストデータと分けて学習させるべきではないのでしょうか?
②分割した際のテストデータをどのように扱うのか?
また、交差検証では、平均などを用いて最終的なスコアなどを出すかと思いますが、モデルに直接fitさせているわけではないので、もし、交差検証を行う前にトレーニングデータとテストデータに分割させた場合、どのようにテストデータにモデルを適応させれば良いのでしょうか。
「トレーニングデータに対して交差検証→テストデータに適応」 という考え方がそもそも間違っているのでしょうか?
すごくわかりにくい書き方になってしまいました。
今、機械学習での予測モデルを構築していて、新規で入ってくるデータに対しても、そのモデルを用いて予測をしたいと考えています。学習サンプル数が非常に少ないので交差検証を試したいのですが、どのように適用させればいいかで悩んでいるという背景です。
回答1件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2020/09/30 03:57