回答編集履歴
2
誤字修正
test
CHANGED
@@ -10,7 +10,9 @@
|
|
10
10
|
|
11
11
|
2. train dataを学習用と検証用に切る際に上手く分割できていない。
|
12
12
|
|
13
|
-
- 例)test(20
|
13
|
+
- 例)test(2020), train(2015, 2016, 2017, 2018, 2019)というような時系列的データセットが与えられた際に、2019, 2018, 2016, 2015年を学習用、2017を検証用にしている。
|
14
|
+
|
15
|
+
- 一般的に時系列予測は過去のデータから未来の予測をするものですが、上記の用に未来のデータを学習に使ってしまうと、リークと言ってバリデーションスコアが高くなってしまう傾向があります。
|
14
16
|
|
15
17
|
- 上記の場合、2020年を予測しようとしても想像していたよりスコアが伸びない可能性があります。
|
16
18
|
|
1
誤字修正
test
CHANGED
@@ -4,15 +4,15 @@
|
|
4
4
|
|
5
5
|
1. train data(手元で学習用と検証用に分割)とtest dataでデータの分布が大きく違っている。
|
6
6
|
|
7
|
-
- 例)trainには、若年者のデータ。testには高齢者のデータばかりが集中しており、
|
7
|
+
- 例)trainには、若年者のデータ。testには高齢者のデータばかりが集中しており、学習したモデルが上手くtestを予測できない。
|
8
8
|
|
9
9
|
|
10
10
|
|
11
11
|
2. train dataを学習用と検証用に切る際に上手く分割できていない。
|
12
12
|
|
13
|
-
- 例)test(2019), train(2015
|
13
|
+
- 例)test(2019), train(2015, 2016, 2017, 2018, 2019)というような時系列的データセットが与えられた際に、2019, 2018, 2016, 2015年を学習用、2017を検証用にしている。一般的に時系列予測は過去のデータから未来の予測をするものですが、上記の用に未来のデータを学習に使ってしまうと、リークと言ってバリデーションスコアが高くなってしまう傾向があります。
|
14
14
|
|
15
|
-
- 上記の場合、2020年を予測しようとしても
|
15
|
+
- 上記の場合、2020年を予測しようとしても想像していたよりスコアが伸びない可能性があります。
|
16
16
|
|
17
17
|
|
18
18
|
|