回答編集履歴

2

誤字修正

2019/10/07 10:21

投稿

spider-man
spider-man

スコア94

test CHANGED
@@ -10,7 +10,9 @@
10
10
 
11
11
  2. train dataを学習用と検証用に切る際に上手く分割できていない。
12
12
 
13
- - 例)test(2019), train(2015, 2016, 2017, 2018, 2019)というような時系列的データセットが与えられた際に、2019, 2018, 2016, 2015年を学習用、2017を検証用にしている。一般的に時系列予測は過去のデータから未来の予測をするものですが、上記の用に未来のデータを学習に使ってしまうと、リークと言ってバリデーションスコアが高くなってしまう傾向があります。
13
+ - 例)test(2020), train(2015, 2016, 2017, 2018, 2019)というような時系列的データセットが与えられた際に、2019, 2018, 2016, 2015年を学習用、2017を検証用にしている。
14
+
15
+ - 一般的に時系列予測は過去のデータから未来の予測をするものですが、上記の用に未来のデータを学習に使ってしまうと、リークと言ってバリデーションスコアが高くなってしまう傾向があります。
14
16
 
15
17
  - 上記の場合、2020年を予測しようとしても想像していたよりスコアが伸びない可能性があります。
16
18
 

1

誤字修正

2019/10/07 10:21

投稿

spider-man
spider-man

スコア94

test CHANGED
@@ -4,15 +4,15 @@
4
4
 
5
5
  1. train data(手元で学習用と検証用に分割)とtest dataでデータの分布が大きく違っている。
6
6
 
7
- - 例)trainには、若年者のデータ。testには高齢者のデータばかりが集中しており、うまく学習したモデルがいまいちtestを予測できない
7
+ - 例)trainには、若年者のデータ。testには高齢者のデータばかりが集中しており、学習したモデルが上手くtestを予測できない
8
8
 
9
9
 
10
10
 
11
11
  2. train dataを学習用と検証用に切る際に上手く分割できていない。
12
12
 
13
- - 例)test(2019), train(2015. 2016, 2017, 2018, 2019)というような時系列的データセットが与えられた際に、2019, 2018, 2016, 2015年を学習用、2017を検証用に切ってまっている。一般的に時系列予測は過去のデータから未来の予測をするものですが、上記の用に未来のデータを学習に使ってしまうと、リークと言ってバリデーションスコアが高くなってしま傾向があります。
13
+ - 例)test(2019), train(2015 2016, 2017, 2018, 2019)というような時系列的データセットが与えられた際に、2019, 2018, 2016, 2015年を学習用、2017を検証用にしている。一般的に時系列予測は過去のデータから未来の予測をするものですが、上記の用に未来のデータを学習に使ってしまうと、リークと言ってバリデーションスコアが高くなってしま傾向があります。
14
14
 
15
- - 上記の場合、2020年を予測しようとしてもやはり思っていたよりスコアが伸びない可能性があります。
15
+ - 上記の場合、2020年を予測しようとしても想像していたよりスコアが伸びない可能性があります。
16
16
 
17
17
 
18
18