###前提・実現したいこと
R 3.3.2
naiveBayes
正解率を上げたいと考えています。
ksvmを利用した場合に比べて極端に低い正解率が表示されるので、どこか根本的に間違っている部分があると思われるのですがわかりませんでした。その部分を改善してまともな正解率を算出するものにしたいと考えております。
よろしくお願いいたします。
###発生している問題・エラーメッセージ
エラーが出ているわけではないのですが、正解率が極端に低いためどこかで根本的な間違いを犯しているようです。
ksvmを利用した場合は90%近くでるのですが、naiveBayesを利用した場合は10%程で、データ数を増やすと更に下がります。
1を-1と判断することが多いです。
###試したこと
docMatrixDFのweightの変更
naiveBayesのclass.weightsの削除等
特に改善しませんでした。
###コード
R
1library(XML) 2library(RCurl) 3library(tm) 4library(RSQLite) 5library(RMeCab) 6library(Nippon) 7library(e1071) 8 9 10url = 'http://svn.sourceforge.jp/svnroot/slothlib/CSharp/Version1/SlothLib/NLP/Filter/StopWord/word/Japanese.txt' 11# 日本語のストップワードリストのURLです。 12 13html_file = getURL(url) 14# htmlファイルの取得 15doc = htmlParse(html_file, encoding="UTF-8") 16# 解析 17 18target_xpath = '/html/body/p' 19p = xpathSApply(doc, target_xpath, xmlValue) 20# ストップワードの取り出し 21 22stopwords = unlist(strsplit(p, '(\r\n){1,}')) 23# 改行を削除することで単語ごとに格納 24 25con = dbConnect(SQLite(), "reviews.db", synchronous="off") 26# レビューが保存されているデータベースに接続 27 28r1 = dbGetQuery(con, "select * from unique_reviews limit 200") 29# データベースから値を取得 30# テーブルはidとreviewとrateを持っています 31 32r1 = r1[r1$rate!=3,] 33# 評価値が3のものを取り除く 34 35for(i in length(r1$review)) { 36 r1$review[i] = zen2han(r1$review[i]) 37} 38# 英数字の全角を半角にすることで英数字を半角に揃える。 39 40dtm = docMatrixDF(r1$review, weight='tf3', minFreq=2) 41# 文書単語行列に変換 42# /usr/local/etc/mecabrcにてdicdir=/usr/local/lib/mecab/dic/mecab-ipadic-neologdに変えました。 43 44dtm = dtm[rowSums(dtm) > 5, ] 45 46row_names1 = row.names(dtm) 47row_names2 = removeNumbers((row.names(dtm))) 48for(i in 1:length(row_names1)) { 49 if(row_names1[i] != row_names2[i]) { 50 dtm[i,] = NA 51 # 数字を含んでいる単語を削除する。 52 # 削除する行にNAをセット 53 # ここで毎回削除すると行にずれが生じるのでここではNAのセットに留める 54 } 55} 56dtm = na.omit(dtm) 57# NAがセットされた行をすべて削除 58 59punct = c('!', '"', '#', '$', '%', '&', "'", '(', ')', '*', '+', ',', '-', '.', '/', '・', '「', '」', '、', '。') 60stopwords = c(stopwords, punct) 61for(stopword in stopwords) { 62 dtm <- dtm[row.names(dtm) != stopword,] 63} 64# 不要な単語をある程度削除 65 66dtm = as.data.frame(dtm) 67# データフレームに変換 68 69for(i in 1:(dim(dtm)[1])) { 70 frequency = 0 71 for(j in 1:(dim(dtm)[2])) { 72 if(dtm[[j]][[i]] > 0) { 73 frequency = frequency + 1 74 } 75 } 76 if(frequency < 5) { 77 dtm[i,] = NA 78 } 79} 80dtm = na.omit(dtm) 81# ある単語がどれだけの文書に出現しているかを計算 82 83dtm = as.data.frame(t(dtm)) 84# 転置 85 86rate = c() 87for(i in r1$rate) { 88 if(i > 3) { 89 rate = c(rate, 1) 90 } else { 91 rate = c(rate, -1) 92 } 93} 94# ポジティブ、ネガティブで分類するために4,5の評価を1に、1,2の評価を-1にしました 95 96dtm = cbind(dtm, Class=as.ordered(rate)) 97# 評価値(クラス)を追加 98 99train_index = 1:(dim(dtm)[1] * 0.8) 100# 分割用のインデックスを作成 101# 学習用を8割、テスト用を2割 102dtm.train = dtm[train_index,] 103# 学習用データ 104dtm.test = dtm[-train_index,] 105# テストデータ 106 107set.seed(50) 108# 乱数固定 109 110weights = 100/table(rate) 111# 重みの計算 112doc.bayes = naiveBayes(Class~., data=dtm.train, cross=15, class.weights=c('-1'=weights[[1]], '1'=weights[[2]])) 113# 重み調整により不均衡データへ対応しています。 114 115prediction <- predict(doc.bayes, dtm.test[, -ncol(dtm.test)] ) 116# 答えの列を削除して予測 117 118precision <- table(dtm.test[, ncol(dtm.test)], prediction) 119# 混同行列に合計がつかないものを作成。 120 121confusion_matrix = addmargins(precision) 122# 混同行列の作成 123print(confusion_matrix) 124# 混同行列の表示 125 126accuracy = (confusion_matrix[1,1] + confusion_matrix[2,2]) / confusion_matrix[3, 3] 127# 正解率の計算 128print(accuracy) 129# 正解率の表示
以下のような結果になります。
R
1print(confusion_matrix) 2 prediction 3 -1 1 Sum 4 -1 4 0 4 5 1 31 0 31 6 Sum 35 0 35 7 8print(accuracy) 9[1] 0.1142857
回答1件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。