自分の理解が曖昧なところがあるので、間違っていたらどんどん指摘してください。
自分の理解は以下のとおりです。
「学習データ」:学習に用いるデータ。
「検証データ」:過学習しているか確認するためのデータ。学習データと被ったらだめ。
「テストデータ」:未知のものごとに適用できるか、汎化性能を確認するためのデータ。学習データにも検証データにも被ったらだめ。
「交差検証法(クロスバリデーション)」:データ数少ないときに検証をするための手法。
「K-分割交差検証法」:学習データをK個に分けて、そのうちの1個を"検証データ"としてかわりばんこに使って検証を行う。
この知識の段階で、K-分割交差検証について調べていったところ、いくつかのサイトでテストデータに分割をすることなく、データセット全体でK-分割交差検証を行っているサイトが見られました。
交差検証法のやり方としてはどちらが正しいのでしょうか?
そもそもテストをする必要がない場合なども実務上ではあるのでしょうか?
以下はサイト一例です。回答よろしくお願いします。
https://aiacademy.jp/media/?p=263
https://qiita.com/matsukura04583/items/042fcbf1bc594dfca7a4
https://data-analysis-stats.jp/python/%E3%83%9B%E3%83%BC%E3%83%AB%E3%83%89%E3%82%A2%E3%82%A6%E3%83%88%E6%A4%9C%E8%A8%BC%E3%81%A8%E4%BA%A4%E5%B7%AE%E6%A4%9C%E8%A8%BC/
交差検定では、用意したデータをK個に分割して、1回目はそのうちの一つをテストデータ、それ以外を学習データとして、学習・評価します。2回目は1回目と異なる別のデータをテストデータとして使い、3回目は1,2回目と異なるデータで評価をします。
回答2件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2020/11/21 03:13 編集
2020/11/21 03:49 編集