Nested cross validationによるパラメータ調節

データセットがそれほど大きくないときに(~300 samples）あるモデルのパラメータを調節し、さらにそのモデルの汎化性能を知りたい際には、一般的にNested cross validationが推奨されていると思います。

ただ、nested CV の内側のループで調節されたパラメータの組がk(k for outer loop k-fold)得られると思います。

このような場合、実際に汎化性能を推定する際にはどのパラメータをもちいたらよいのでしょうか？

一つ考えたのは、k-fold CV の平均スコアによってパラメータを最適化することですが、これだと結局汎化性能の評価に使いたいデータが入ったデータを用いてパラメータを最適化してしまっており、多少なりともleakが生じているので、nested CVの意味があまりないのではと感じます。

どのような方法が考えられるのでしょうか？よろしくお願いします。

行動規範の内容に同意します

回答1件

ベストアンサー

実際に汎化性能を推定する際には

とありますが、「Nested CVを使って汎化性能を推定」したのであって、汎化性能の推定が目的なら外側のCVで評価指標を出して終わりです。この場合具体的な最適パラメータは定まりません。

特定の最適なパラメータを得たい（未知データの予測に応用するなら必ずそうなります）のであれば、パラメータが連続値なら平均、離散値なら最頻値を採用するみたいな方針にすれば質問文の問題は発生しません。

投稿2019/01/30 15:07

総合スコア30933

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

関連した質問