SVMの使い方諸々について

RでのSVMで、スパムメールが本物かどうかというものを機械が判別してくれるという素晴らしい機能があると知り、また、学校の授業でも使っているSVMなので、勉強しておこうとコードを読んでいたところ、いくつか分からないことがありましたので、質問させていただきます。

R
1> library(kernlab)
2> data(spam)
3> rowdata<-nrow(spam)
4> random_ids<-sample(rowdata,rowdata*0.5) -----①
5
6> spam_training<-spam[random_ids,]
7> spam_predicting<-spam[-random_ids,]
8
9> spam_svm<-ksvm(type ~., data=spam_training )
10> spam_predict<-predict(spam_svm,spam_predicting[,-58])-----②
11> table(spam_predict, spam_predicting[,58])-----③
12
13#結果            
14spam_predict nonspam spam
15     nonspam    1349  111
16     spam         58  783

先ず、①からです。ここで表している0.5という数字は、学習データに用いられるデータの割合でしょうか？それともテストデータに用いられるデータの割合でしょうか？
次に、②です。この、-58というものは、何を表しているのでしょうか？
③も、②と同じ内容の質問です。

勉強不足ですいません。どなたか、よろしくお願い致します。

行動規範の内容に同意します

回答1件

ベストアンサー

アトランダムにspamデータを同数づつの二つのグループに分け、一方を学習データ、もう一方をテストデータに使おうとしている。つまり学習データに用いられるデータの割合=テストデータに用いられるデータの割合=0.5
x[,-n]というのはデータフレームxからn桁目を除いた残りすべてのカラムを選択するということです。

投稿2019/08/07 19:51