1年分のデータセットを機械学習で学習させようと考えています。
この際、未来のデータを使って汎化性能を測らないようにsklearn.model_selection.TimeSeriesSplitを使用しようと考えています。
ただ、この方法だと1月から3月までが最初から訓練データとして選択されている場合、1月から3月までの汎化性能が測れません。
こういった場合、どういったアプローチをとるのが適切なのでしょうか?
系列データとしてそもそも扱わない方が良いのでしょうか?
取り合えず一般的なバリデーションの切り方を色々試した結果で、バリデーションの切り方を決めようと思いますが、如何せん1人で独学中なので周りの方のアプローチ方法を伺いたく思いました。
解決方法も系列データが予測値に対してもつ意味合いによって変わってくるとは思いますが、ご意見いただけると幸いです。
回答1件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2019/08/30 12:04