回答編集履歴

3

一部修正

2021/03/27 05:03

投稿

toast-uz
toast-uz

スコア3266

test CHANGED
@@ -40,7 +40,7 @@
40
40
 
41
41
 
42
42
 
43
- SMOTEは、同じ説明変数のペアをコピーするわけではありませんが、それでも、「類似の」説明変数のペアを生成することで、オーバーサンプリングを行います。そもそも、予想が難しい問題というのは、説明変数をもとにした単純な分類が通用しないという特性を持っています。そのため、**学習データをもとにした「単純な類似性」によるデータ拡張は、未知データに有効ではなく、学習データにオーバーフィッティングしてしまう**ことになります。
43
+ SMOTEは、同じ説明変数のペアをコピーするわけではありませんが、それでも、「類似の」説明変数のペアを生成することで、オーバーサンプリングを行います。そもそも、予想が難しい問題というのは、説明変数をもとにした単純な分類が通用しないという特性を持っています。そのため、**学習データをもとにした「単純な類似性」によるデータ拡張は、未知データに有効ではなく、学習データにオーバーフィッティングしてしまう**ことになります。(あくまでも、今回のデータの場合、ということで一般的にはオーバーサンプリングが正しい打ち手であることも多いです)
44
44
 
45
45
 
46
46
 

2

一部修正

2021/03/27 05:03

投稿

toast-uz
toast-uz

スコア3266

test CHANGED
@@ -1,6 +1,6 @@
1
1
  学習データでの精度がいいのに、未知データの精度が悪い原因は、**オーバーフィッティングである**と思われます。
2
2
 
3
- 対策として、今回のデータの場合は、**深層学習ではない機械学習モデル(GBDT、ランダムフォレスト、ロジスティクス回帰、SVC等)を用い、必要に応じてそれらのアンサンブルをするとよい**でしょう。
3
+ 対策として、今回のデータの場合は、**深層学習ではない機械学習モデル(GBDT、ランダムフォレスト、ロジスティクス回帰、SVM等)を用い、必要に応じてそれらのアンサンブルをするとよい**でしょう。
4
4
 
5
5
 
6
6
 
@@ -52,7 +52,7 @@
52
52
 
53
53
 
54
54
 
55
- 冒頭に記述したとおり、今回のSIGNATEのデータの場合は、**深層学習ではない機械学習モデル(GBDT、ランダムフォレスト、ロジスティクス回帰、SVC等)を用い、必要に応じてそれらのアンサンブルをするとよい**でしょう。また、不均衡データの対策としては、オーバーサンプリングはやめて、損失関数をカスタマイズしたりクラス重み付けすることを試してみましょう。
55
+ 冒頭に記述したとおり、今回のSIGNATEのデータの場合は、**深層学習ではない機械学習モデル(GBDT、ランダムフォレスト、ロジスティクス回帰、SVM等)を用い、必要に応じてそれらのアンサンブルをするとよい**でしょう。また、不均衡データの対策としては、オーバーサンプリングはやめて、損失関数をカスタマイズしたりクラス重み付けすることを試してみましょう。
56
56
 
57
57
 
58
58
 

1

一部修正

2021/03/27 05:01

投稿

toast-uz
toast-uz

スコア3266

test CHANGED
@@ -52,7 +52,7 @@
52
52
 
53
53
 
54
54
 
55
- 冒頭に記述したとおり、今回のSIGNATEのデータの場合は、**深層学習ではない機械学習モデル(GBDT、ランダムフォレスト、ロジスティクス回帰、SVC等)を用い、必要に応じてそれらのアンサンブルをするとよい**でしょう。また、不均衡データの対策としては、オーバーサンプリングはやめて、評価関数をカスタマイズしたりクラス重み付けすることを試してみましょう。
55
+ 冒頭に記述したとおり、今回のSIGNATEのデータの場合は、**深層学習ではない機械学習モデル(GBDT、ランダムフォレスト、ロジスティクス回帰、SVC等)を用い、必要に応じてそれらのアンサンブルをするとよい**でしょう。また、不均衡データの対策としては、オーバーサンプリングはやめて、損失関数をカスタマイズしたりクラス重み付けすることを試してみましょう。
56
56
 
57
57
 
58
58