回答率: 85.36%

質問するログイン新規登録

トップ Python 3.xに関する質問機械学習について（交差検証）

編集履歴

回答編集履歴

2

誤字修正

2019/10/07 10:21

投稿

スコア94

test CHANGED Viewed

@@ -10,7 +10,9 @@
 2. train dataを学習用と検証用に切る際に上手く分割できていない。
-- 例）test(2019), train(2015， 2016, 2017, 2018, 2019)というような時系列的データセットが与えられた際に、2019, 2018, 2016, 2015年を学習用、2017を検証用にしている。一般的に時系列予測は過去のデータから未来の予測をするものですが、上記の用に未来のデータを学習に使ってしまうと、リークと言ってバリデーションスコアが高くなってしまう傾向があります。
+- 例）test(2020), train(2015， 2016, 2017, 2018, 2019)というような時系列的データセットが与えられた際に、2019, 2018, 2016, 2015年を学習用、2017を検証用にしている。
+- 一般的に時系列予測は過去のデータから未来の予測をするものですが、上記の用に未来のデータを学習に使ってしまうと、リークと言ってバリデーションスコアが高くなってしまう傾向があります。
 - 上記の場合、2020年を予測しようとしても想像していたよりスコアが伸びない可能性があります。

1

誤字修正

2019/10/07 10:21

投稿

スコア94

test CHANGED Viewed

@@ -4,15 +4,15 @@
 1. train data(手元で学習用と検証用に分割)とtest dataでデータの分布が大きく違っている。
-- 例）trainには、若年者のデータ。testには高齢者のデータばかりが集中しており、うまく学習したモデルがいまいちtestを予測できない
+- 例）trainには、若年者のデータ。testには高齢者のデータばかりが集中しており、学習したモデルが上手くtestを予測できない。
 2. train dataを学習用と検証用に切る際に上手く分割できていない。
-- 例）test(2019), train(2015. 2016, 2017, 2018, 2019)というような時系列的データセットが与えられた際に、2019, 2018, 2016, 2015年を学習用、2017を検証用に切ってしまっている。一般的に時系列予測は過去のデータから未来の予測をするものですが、上記の用に未来のデータを学習に使ってしまうと、リークと言ってバリデーションスコアが高くなってします傾向があります。
+- 例）test(2019), train(2015， 2016, 2017, 2018, 2019)というような時系列的データセットが与えられた際に、2019, 2018, 2016, 2015年を学習用、2017を検証用にしている。一般的に時系列予測は過去のデータから未来の予測をするものですが、上記の用に未来のデータを学習に使ってしまうと、リークと言ってバリデーションスコアが高くなってしまう傾向があります。
-- 上記の場合、2020年を予測しようとしてもやはり思っていたよりスコアが伸びない可能性があります。
+- 上記の場合、2020年を予測しようとしても想像していたよりスコアが伸びない可能性があります。