SVMの評価指標

SVMについてです．
統計解析ソフトRにて機械学習を行っています．
このソフトに限ることではないのですが，SVMにおける

・Training error
・Cross validation error

は何を表しているのでしょうか．
調べてみたのですが，いまいちわかりません．

上記の二つを含め，SVMの精度を確認する際にはどの指標を確認したらいいのでしょうか．

行動規範の内容に同意します

回答1件

SVM の専門家では無いのであれですが、分かる範囲でお答えいたします。

Training Error は判別ルールを作るのに使ったデータに対する誤判別率、Cross validation error は、データをランダムにトレーニングデータとテストデータに分割してトレーニングデータで判別ルールを作成＋テストデータで誤判別率を評価、ということを何回も繰り返した際の誤判別率の平均などです。

SVMだけに限ったことではありませんが、統計科学の手法や情報科学の諸手法で回帰や判別を行うときは手元のデータからそのデータの背景にある「真の構造を導きだす」ことや「同じ構造で生み出される新しいデータの予測」を目的にします。

しかしながら、手元にあるデータだけで回帰モデルや判別モデルを作成すると、手元のデータに含まれるノイズにも過剰に適合したモデルになってしまいます。（これを over fitting などと呼びます。）
そこで、Cross validation では手元のデータをランダムにトレーニングデータ（モデルの作成に使用）とテストデータ（モデルの評価に使用）に分けるのを繰り返して評価をし、手元のデータに過剰に適合しないようにしています。

すなわち、今回の質問である「SVMの精度を確認する際にはどの指標を確認したらいいのか」ということに関してはとりあえずは Cross validation error を確認することをお勧めします。

投稿2015/11/14 10:28