回答編集履歴
1
test
CHANGED
@@ -34,13 +34,19 @@
|
|
34
34
|
|
35
35
|
|
36
36
|
|
37
|
+
分類方法
|
38
|
+
|
39
|
+
---
|
40
|
+
|
41
|
+
|
42
|
+
|
43
|
+
|
44
|
+
|
37
45
|
**1. SVM(サポートベクターマシン)を使って分類**
|
38
46
|
|
39
47
|
[こちらの説明](http://neuro-educator.com/ml5/)が分かりやすいと思います。
|
40
48
|
|
41
49
|
架空の2次元のデータをイメージしてください。直線でスパッと割れるのであれば分類しやすいですが、まだら模様のように分布しているデータの分類は直線ではできません。これを「カーネル(二次元のデータ空間を高さ方向にひしゃげて無理やり分離させるイメージです)」で分離して、スパッと線で切ろうぜ、という手法です。
|
42
|
-
|
43
|
-
|
44
50
|
|
45
51
|
|
46
52
|
|
@@ -63,3 +69,13 @@
|
|
63
69
|
バギングは、有象無象のやり方をひとまとめにして、多数決をしてなんだろうか、とする決め方です。1種類の分類方法はクセが強すぎる場合に平均化して分類することがあります。先のSVMもその一つに入れてもよいですし、入れなくてもよいです。
|
64
70
|
|
65
71
|
※SVMを入れると遅くなるので入れない方がよさそうです。
|
72
|
+
|
73
|
+
|
74
|
+
|
75
|
+
分類の前処理
|
76
|
+
|
77
|
+
---
|
78
|
+
|
79
|
+
|
80
|
+
|
81
|
+
データの次元同士(25次元の中)で連動する傾向があるのであれば、25種類の生データから6分類するよりも、例えば10種類の生データや5種類の生データから6分類した方がデータ分類の難易度が下がります(シンプルな問題に置き換えられます)。このやり方は次元削減(dimensionality reduction)と呼ばれています。手法としては上の画像の右下部分、特にPCAが便利です。PCAについては、[こちら](https://qiita.com/nonbiri15/items/3b0440a95e61f134413d)が詳しいです。オプションとして次元を減らしたデータで分類を図るとうまくいくかもしれません。
|