回答編集履歴

一部修正

2021/03/27 05:03

投稿

toast-uz

スコア3266

answer CHANGED Viewed

@@ -19,7 +19,7 @@
 2-2) オーバーサンプリングの影響
-SMOTEは、同じ説明変数のペアをコピーするわけではありませんが、それでも、「類似の」説明変数のペアを生成することで、オーバーサンプリングを行います。そもそも、予想が難しい問題というのは、説明変数をもとにした単純な分類が通用しないという特性を持っています。そのため、**学習データをもとにした「単純な類似性」によるデータ拡張は、未知データに有効ではなく、学習データにオーバーフィッティングしてしまう**ことになります。
+SMOTEは、同じ説明変数のペアをコピーするわけではありませんが、それでも、「類似の」説明変数のペアを生成することで、オーバーサンプリングを行います。そもそも、予想が難しい問題というのは、説明変数をもとにした単純な分類が通用しないという特性を持っています。そのため、**学習データをもとにした「単純な類似性」によるデータ拡張は、未知データに有効ではなく、学習データにオーバーフィッティングしてしまう**ことになります。（あくまでも、今回のデータの場合、ということで一般的にはオーバーサンプリングが正しい打ち手であることも多いです）
 例えば、アパートの住人が201号室と203号室が男性である場合に、「202号室も男性である」というデータ拡張をしているようなものです。実はもっと複雑な条件から推定すべきなのに、無関係な説明変数の補間でデータを「捏造」してしまうため、推論を間違った方向に誘導してしまいます。

一部修正

2021/03/27 05:03

投稿

toast-uz

スコア3266

answer CHANGED Viewed

@@ -1,5 +1,5 @@
 学習データでの精度がいいのに、未知データの精度が悪い原因は、**オーバーフィッティングである**と思われます。
-対策として、今回のデータの場合は、**深層学習ではない機械学習モデル（GBDT、ランダムフォレスト、ロジスティクス回帰、SVC等）を用い、必要に応じてそれらのアンサンブルをするとよい**でしょう。
+対策として、今回のデータの場合は、**深層学習ではない機械学習モデル（GBDT、ランダムフォレスト、ロジスティクス回帰、SVM等）を用い、必要に応じてそれらのアンサンブルをするとよい**でしょう。
 1) 今回のデータの特徴
@@ -25,7 +25,7 @@
 3) 対策
-冒頭に記述したとおり、今回のSIGNATEのデータの場合は、**深層学習ではない機械学習モデル（GBDT、ランダムフォレスト、ロジスティクス回帰、SVC等）を用い、必要に応じてそれらのアンサンブルをするとよい**でしょう。また、不均衡データの対策としては、オーバーサンプリングはやめて、損失関数をカスタマイズしたりクラス重み付けすることを試してみましょう。
+冒頭に記述したとおり、今回のSIGNATEのデータの場合は、**深層学習ではない機械学習モデル（GBDT、ランダムフォレスト、ロジスティクス回帰、SVM等）を用い、必要に応じてそれらのアンサンブルをするとよい**でしょう。また、不均衡データの対策としては、オーバーサンプリングはやめて、損失関数をカスタマイズしたりクラス重み付けすることを試してみましょう。
 なお、今回のデータは、kaggleの有名な初級課題である**titanicと類似した特徴がある**ようです。titanicもサンプル数が約900と少ない２値分類問題です。私自身、titanicでNNで学習を試みましたがオーバーフィッティングしてしまい、手元のデータだと好成績を出しているはずが未知データの推論結果は思わしくない、ということに遭遇しました。一方、GBDTを使うとそのような影響は軽微になりました。実際、**titanicで好成績を上げた人の解説記事を見ると、みなさん、NNは使われていません**。

一部修正

2021/03/27 05:01

投稿

toast-uz

スコア3266

answer CHANGED Viewed

@@ -25,7 +25,7 @@
 3) 対策
-冒頭に記述したとおり、今回のSIGNATEのデータの場合は、**深層学習ではない機械学習モデル（GBDT、ランダムフォレスト、ロジスティクス回帰、SVC等）を用い、必要に応じてそれらのアンサンブルをするとよい**でしょう。また、不均衡データの対策としては、オーバーサンプリングはやめて、評価関数をカスタマイズしたりクラス重み付けすることを試してみましょう。
+冒頭に記述したとおり、今回のSIGNATEのデータの場合は、**深層学習ではない機械学習モデル（GBDT、ランダムフォレスト、ロジスティクス回帰、SVC等）を用い、必要に応じてそれらのアンサンブルをするとよい**でしょう。また、不均衡データの対策としては、オーバーサンプリングはやめて、損失関数をカスタマイズしたりクラス重み付けすることを試してみましょう。
 なお、今回のデータは、kaggleの有名な初級課題である**titanicと類似した特徴がある**ようです。titanicもサンプル数が約900と少ない２値分類問題です。私自身、titanicでNNで学習を試みましたがオーバーフィッティングしてしまい、手元のデータだと好成績を出しているはずが未知データの推論結果は思わしくない、ということに遭遇しました。一方、GBDTを使うとそのような影響は軽微になりました。実際、**titanicで好成績を上げた人の解説記事を見ると、みなさん、NNは使われていません**。