質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
バリデーション

Validationとは特定の入力データが、求められた条件に当てまっているかをチェックするために使われます。

機械学習

機械学習は、データからパターンを自動的に発見し、そこから知能的な判断を下すためのコンピューターアルゴリズムを指します。人工知能における課題のひとつです。

pandas

Pandasは、PythonでRにおけるデータフレームに似た型を持たせることができるライブラリです。 行列計算の負担が大幅に軽減されるため、Rで行っていた集計作業をPythonでも比較的簡単に行えます。 データ構造を変更したりデータ分析したりするときにも便利です。

Q&A

解決済

1回答

587閲覧

1年分のデータセットのバリデーションの切り方

pea

総合スコア419

バリデーション

Validationとは特定の入力データが、求められた条件に当てまっているかをチェックするために使われます。

機械学習

機械学習は、データからパターンを自動的に発見し、そこから知能的な判断を下すためのコンピューターアルゴリズムを指します。人工知能における課題のひとつです。

pandas

Pandasは、PythonでRにおけるデータフレームに似た型を持たせることができるライブラリです。 行列計算の負担が大幅に軽減されるため、Rで行っていた集計作業をPythonでも比較的簡単に行えます。 データ構造を変更したりデータ分析したりするときにも便利です。

0グッド

0クリップ

投稿2019/08/29 11:19

1年分のデータセットを機械学習で学習させようと考えています。
この際、未来のデータを使って汎化性能を測らないようにsklearn.model_selection.TimeSeriesSplitを使用しようと考えています。

ただ、この方法だと1月から3月までが最初から訓練データとして選択されている場合、1月から3月までの汎化性能が測れません。

こういった場合、どういったアプローチをとるのが適切なのでしょうか?
系列データとしてそもそも扱わない方が良いのでしょうか?

取り合えず一般的なバリデーションの切り方を色々試した結果で、バリデーションの切り方を決めようと思いますが、如何せん1人で独学中なので周りの方のアプローチ方法を伺いたく思いました。
解決方法も系列データが予測値に対してもつ意味合いによって変わってくるとは思いますが、ご意見いただけると幸いです。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

ベストアンサー

データを時系列でソートしておいて、shuffleなしでKFoldに渡して交差検証すれば4-12月で学習して1-3月でテストとかも含まれることになります。それで良いならそうすればいいと思います。

データの性質によっては、最初からホールドアウトでやった方が適切かもしれません。

投稿2019/08/29 12:04

hayataka2049

総合スコア30933

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

pea

2019/08/30 12:04

回答ありがとうございます。 やってみた感じだと月毎のGroupKFoldが汎化性能を図るのに良さそうでした。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問