回答率: 85.25%

質問するログイン新規登録

トップ機械学習に関する質問ランダムフォレストにおける過学習の解消

編集履歴

回答編集履歴

2

小修正

2018/06/28 07:09

投稿

スコア30939

answer CHANGED Viewed

@@ -1,6 +1,6 @@
 ランダムフォレストなら、訓練データに対してほぼ100%の正解率が得られるのは正常です。
 決定木の過学習を、データのブートストラップサンプリングと説明変数のランダムサンプリング、木の本数で薄めているのがランダムフォレストの本質と言えます。
-二次元平面上のデータを入れて学習させ、グリッド状のデータで確率を予測してプロットするとよくわかりますが、外れデータのごく近くだけは外れデータのラベルに分類し、その外側の領域は正しく分類できるような決定境界が描かれます。
+二次元平面上のデータを入れて学習させ、グリッド状のデータで確率を予測してプロットするとよくわかりますが（[こういうの](http://scikit-learn.org/stable/auto_examples/classification/plot_classifier_comparison.html#sphx-glr-auto-examples-classification-plot-classifier-comparison-py)）、外れデータのごく近くだけは外れデータのラベルに分類し、その外側の領域は正しく分類できるような決定境界が描かれます。
 正しく分類される空間の領域の方が圧倒的に大きくなるのを指して「過学習しづらい」と言っているだけです。
 ---

1

小修正

2018/06/28 07:09

投稿

スコア30939

answer CHANGED Viewed

@@ -1,6 +1,6 @@
 ランダムフォレストなら、訓練データに対してほぼ100%の正解率が得られるのは正常です。
 決定木の過学習を、データのブートストラップサンプリングと説明変数のランダムサンプリング、木の本数で薄めているのがランダムフォレストの本質と言えます。
-二次元で分布をプロットするとよくわかりますが、外れデータのごく近くだけは外れデータのラベルに分類し、その外側の領域は正しく分類できるような決定境界が描かれます。
+二次元平面上のデータを入れて学習させ、グリッド状のデータで確率を予測してプロットするとよくわかりますが、外れデータのごく近くだけは外れデータのラベルに分類し、その外側の領域は正しく分類できるような決定境界が描かれます。
 正しく分類される空間の領域の方が圧倒的に大きくなるのを指して「過学習しづらい」と言っているだけです。
 ---