質問するログイン新規登録

回答編集履歴

2

小修正

2018/06/28 07:09

投稿

hayataka2049
hayataka2049

スコア30939

answer CHANGED
@@ -1,6 +1,6 @@
1
1
  ランダムフォレストなら、訓練データに対してほぼ100%の正解率が得られるのは正常です。
2
2
  決定木の過学習を、データのブートストラップサンプリングと説明変数のランダムサンプリング、木の本数で薄めているのがランダムフォレストの本質と言えます。
3
- 二次元平面上のデータを入れて学習させ、グリッド状のデータで確率を予測してプロットするとよくわかりますが、外れデータのごく近くだけは外れデータのラベルに分類し、その外側の領域は正しく分類できるような決定境界が描かれます。
3
+ 二次元平面上のデータを入れて学習させ、グリッド状のデータで確率を予測してプロットするとよくわかりますが([こういうの](http://scikit-learn.org/stable/auto_examples/classification/plot_classifier_comparison.html#sphx-glr-auto-examples-classification-plot-classifier-comparison-py))、外れデータのごく近くだけは外れデータのラベルに分類し、その外側の領域は正しく分類できるような決定境界が描かれます。
4
4
  正しく分類される空間の領域の方が圧倒的に大きくなるのを指して「過学習しづらい」と言っているだけです。
5
5
 
6
6
  ---

1

小修正

2018/06/28 07:09

投稿

hayataka2049
hayataka2049

スコア30939

answer CHANGED
@@ -1,6 +1,6 @@
1
1
  ランダムフォレストなら、訓練データに対してほぼ100%の正解率が得られるのは正常です。
2
2
  決定木の過学習を、データのブートストラップサンプリングと説明変数のランダムサンプリング、木の本数で薄めているのがランダムフォレストの本質と言えます。
3
- 二次元で分布をプロットするとよくわかりますが、外れデータのごく近くだけは外れデータのラベルに分類し、その外側の領域は正しく分類できるような決定境界が描かれます。
3
+ 二次元平面上のデータを入れて学習させ、グリッド状のデータ確率予測してプロットするとよくわかりますが、外れデータのごく近くだけは外れデータのラベルに分類し、その外側の領域は正しく分類できるような決定境界が描かれます。
4
4
  正しく分類される空間の領域の方が圧倒的に大きくなるのを指して「過学習しづらい」と言っているだけです。
5
5
 
6
6
  ---