深層学習で検証データを訓練データに徐々に追加するのは、リークすることになりますか？

現在時系列データに対して深層学習プログラムを適用しています。
作成したモデルは、訓練データと検証データに分けたあと、訓練データによって作成した深層学習モデルを、全ての検証データに当てはめることで結果を出力しています。

ここで私は、検証データの中で、予測し終わったものから訓練データへ順次追加させ、新たに深層学習モデルを構築し、検証データの次の時点を予測するというモデルの方が、時系列データでは効力を発揮してくれるのではないか？と思いました。

しかし、これではエポックを重ねるにつれて、検証データによって更新された重みにより、リークしてしまうのではないか？と思い不安になりました。

深層学習で検証データを訓練データに徐々に追加していくことは可能なのでしょうか？

行動規範の内容に同意します

回答1件

可能です。

時系列データについて、どのように訓練データと検証データを分割すべきかは、特有のノウハウがあります。ご質問のような、検証データを次の訓練に使い回すことも、ノウハウの１つとして存在するようです。

詳細は、書籍「Kaggleで勝つデータ分析の技術」にて丁寧に解説されています。ここでいろいろ書きすぎると著作権上よろしくありませんので、説明は割愛します。上記リンクから細かい目次が参照できますが、5.3 時系列データのバリデーション手法に非常に詳しく解説されています。

投稿2021/01/30 09:10

総合スコア3266

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

まだベストアンサーが選ばれていません

アカウントをお持ちの方は

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.36%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

関連した質問