Deep Learningのパラメータをクロスバリデーションで決める

発生している問題・エラーメッセージ

現在、データ数1000ほどのデータセットを用いてグラフ畳み込みニューラルネットの学習をしています。

通常、深層学習のパラメータ（層数、ノード数など）を調整する際にはデータをtrainとvalidationとtestに分けて、trainで学習、validationデータでの評価指標（例えばクロスエントロピーロスなど）の値でEarly stoppingをかけ、validationでの評価指標がもっとも良い状態のモデルを用いてtestデータでの予測を行い、汎化性能の評価を行うことが多いかと思います。

今回の例ではデータがあまり多くないので、単にvalidationデータでの評価のみでパラメータを選ぶと、validationへの過学習のようなものが起こりうるため、5-fold cross validationにてパラメータ探索をしています。

パラメータ最適化ライブラリoptunaを用いて探索を行い、各パラメータセットに対して、各foldでearly stoppingをかけながら、5-foldの平均の評価指標がもっともよくなるパラメータセットを選びます。

ここまでは問題ないのですが、選ばれたパラメータを用いて、testでの予測を行う際に、問題が生じます。というのは、パラメータ探索の際の各foldでearly stoppingをかけていたので、各foldでエポック数が異なります。そのため、現在は各foldのエポックの平均をとって、再びtrainとvalidationを合わせたデータで学習し、testでの予測を行なっています。ただ、これでは最適な状態のモデルでは必ずしもないので、testでの性能が大きく下がってしまいます。

試したこと

考えられる対応策としては、early stoppingなしでepoch数を固定した上で、パラメータ探索をすることが考えられます。ただearly stoppingの予測性能への影響が大きい中でそれを外すのは果たして良いのかと考えています。

このような状況での対応についてご意見を伺いたいです。

よろしくお願いいたします。

Q71

2019/10/23 23:56

モデルのハイパーパラメータ探索と、モデルの学習が混ざっている様に思うのですが、大丈夫ですか？

nouken

2019/10/24 00:13

CVによるパラメータ探索後、得られたパラメータでtrain, valを合わせて学習していますが、CVでEarly stoppingを用いているので、再学習時のエポックの決め方がわからない、という趣旨の質問です。説明が不十分だったので修正しました。

行動規範の内容に同意します

回答1件

5-foldの平均の評価指標がもっともよくなるパラメータセットを選んだ後、early stoppingをかけながら、学習データ全てを用いて再学習させます。これで、early stoppingが固定されるはずです。

投稿2019/10/25 05:24

yamato_user

総合スコア2321

nouken

2019/10/25 05:40

固定はできますがそれでは結局一つのvalidationデータでearly stoppingをかけるのでデータが小さい場合過学習みたいな事態に陥る可能性はあるような気がします。ただ、現状できることの中では、おっしゃる通り、CVでパラメータを決めて、一つのvalidationデータでearly stoppingをかけるのが最善策のような気もします。ありがとうございます。

行動規範の内容に同意します