回答編集履歴

4

誤字修正

2020/11/20 23:50

投稿

toast-uz
toast-uz

スコア3266

test CHANGED
@@ -2,7 +2,7 @@
2
2
 
3
3
 
4
4
 
5
- 私も理解があいまいですので、このご質問を機会に調べてみました。こういう基本的なことかつ誤解が結構あることは、さまざまなブログやテックサイトではなく、権威に頼った方が良いと思いました。よって、日本代表として東大松尾研DL4U、米国代表としてGoolge Machine Learning Crash Courseを確認してみました。
5
+ 私も理解があいまいですので、このご質問を機会に調べてみました。こういう基本的なことかつ誤解が結構あることは、さまざまなブログやテックサイトではなく、権威に頼った方が良いと思いました。よって、日本代表として東大松尾研DL4US、米国代表としてGoolge Machine Learning Crash Courseを確認してみました。
6
6
 
7
7
 
8
8
 
@@ -10,7 +10,7 @@
10
10
 
11
11
 
12
12
 
13
- [DL4Uでのデータセットに関する記載](https://github.com/matsuolab-edu/dl4us/blob/master/lesson0/lesson0_exercise.ipynb)
13
+ [DL4USでのデータセットに関する記載](https://github.com/matsuolab-edu/dl4us/blob/master/lesson0/lesson0_exercise.ipynb)
14
14
 
15
15
  [Google Machine Learning Crash Course - Training and Test Sets: Splitting Data](https://developers.google.com/machine-learning/crash-course/training-and-test-sets/splitting-data)
16
16
 
@@ -18,7 +18,7 @@
18
18
 
19
19
 
20
20
 
21
- DL4Uでは「学習用のデータセットとは別にテスト用(検証用)データセットをあらかじめ用意しておき、学習後にテスト用(検証用)データセットに対する予測精度を評価することが一般に行われます。(厳密には、テスト用は評価のみを行う場合を、検証用(validation)データセットは評価をモデル選択(ハイパーパラメータの調整等)に生かす場合を指します。検証用とテスト用を別途用意し、検証用の評価でモデルを選択したのち、テスト用の評価を計測します。)」
21
+ DL4USでは「学習用のデータセットとは別にテスト用(検証用)データセットをあらかじめ用意しておき、学習後にテスト用(検証用)データセットに対する予測精度を評価することが一般に行われます。(厳密には、テスト用は評価のみを行う場合を、検証用(validation)データセットは評価をモデル選択(ハイパーパラメータの調整等)に生かす場合を指します。検証用とテスト用を別途用意し、検証用の評価でモデルを選択したのち、テスト用の評価を計測します。)」
22
22
 
23
23
 
24
24
 

3

一部修正

2020/11/20 23:50

投稿

toast-uz
toast-uz

スコア3266

test CHANGED
@@ -38,7 +38,7 @@
38
38
 
39
39
 
40
40
 
41
- 要するに、モデル調整や選択を伴わない場合、あるいは伴ってもオーバーフィッティングの可能性が少ないのであれば、全てのデータを使ってクロスバリデーションしてもよいことになります。ただし、一般的にはハイパーパラメータチューニングといったわりやすいもだけなく、アーリーストッピングみたいなものも「モデル調整や選択」であると思いますので、3分割モデルが多いと思います。
41
+ 要するに、モデル調整や選択を伴わない場合、あるいは伴ってもオーバーフィッティングの可能性が少ないのであれば、全てのデータを使ってクロスバリデーションしてもよいことになります。ただし、一般的には、何らかのでモデル調整や選択が入りますので、3分割モデルが多いと思います。
42
42
 
43
43
 
44
44
 

2

一部修正

2020/11/20 23:33

投稿

toast-uz
toast-uz

スコア3266

test CHANGED
@@ -38,7 +38,7 @@
38
38
 
39
39
 
40
40
 
41
- 要するに、モデル調整や選択を伴わない場合、あるいは伴ってもオーバーフィッティングの可能性が少ないのであれば、全てのデータを使ってクロスバリデーションしてもよいことになります。ただし、一般的にはハイパーパラメータチューニングといったわかりやすいものだけでなく、アーリーストッピングみたいなものも「モデル選択」であると思いますので、3分割モデルが多いと思います。
41
+ 要するに、モデル調整や選択を伴わない場合、あるいは伴ってもオーバーフィッティングの可能性が少ないのであれば、全てのデータを使ってクロスバリデーションしてもよいことになります。ただし、一般的にはハイパーパラメータチューニングといったわかりやすいものだけでなく、アーリーストッピングみたいなものも「モデル調整や選択」であると思いますので、3分割モデルが多いと思います。
42
42
 
43
43
 
44
44
 

1

一部修正

2020/11/20 23:12

投稿

toast-uz
toast-uz

スコア3266

test CHANGED
@@ -22,7 +22,7 @@
22
22
 
23
23
 
24
24
 
25
- Googleでは、traning/testに対して、traning/validation/testを「Another Partition」と呼んだ上で、後者で「"Tweak model" means adjusting anything about the model you can dream up from changing the learning rate, to adding or removing features, to designing a completely new model from scratch. At the end of this workflow, you pick the model that does best on the test set. You can greatly reduce your chances of overfitting by partitioning the data set into the three subsets shown in the following figure.」(意訳:モデルを微調整してテストデータを使って最適なモデルを選択するんだけど、オーバーフィッティングを減らすにはデータセットを3つにわけたほうがよい)
25
+ Googleでは、traning/test、trainig/validation/testを独立に説明した上で、後者で「"Tweak model" means adjusting anything about the model you can dream up from changing the learning rate, to adding or removing features, to designing a completely new model from scratch. At the end of this workflow, you pick the model that does best on the test set. You can greatly reduce your chances of overfitting by partitioning the data set into the three subsets shown in the following figure.」(意訳:モデルを微調整してテストデータを使って最適なモデルを選択するんだけど、オーバーフィッティングを減らすにはデータセットを3つにわけたほうがよい)
26
26
 
27
27
 
28
28