正解率が極端に低い原因がわかりません。

###前提・実現したいこと
R 3.3.2
naiveBayes

正解率を上げたいと考えています。
ksvmを利用した場合に比べて極端に低い正解率が表示されるので、どこか根本的に間違っている部分があると思われるのですがわかりませんでした。その部分を改善してまともな正解率を算出するものにしたいと考えております。
よろしくお願いいたします。

###発生している問題・エラーメッセージ
エラーが出ているわけではないのですが、正解率が極端に低いためどこかで根本的な間違いを犯しているようです。
ksvmを利用した場合は90％近くでるのですが、naiveBayesを利用した場合は10%程で、データ数を増やすと更に下がります。
1を-1と判断することが多いです。

###試したこと
docMatrixDFのweightの変更
naiveBayesのclass.weightsの削除等

特に改善しませんでした。

###コード

R
1library(XML)
2library(RCurl)
3library(tm)
4library(RSQLite)
5library(RMeCab)
6library(Nippon)
7library(e1071)
8
9
10url = 'http://svn.sourceforge.jp/svnroot/slothlib/CSharp/Version1/SlothLib/NLP/Filter/StopWord/word/Japanese.txt'
11# 日本語のストップワードリストのURLです。
12
13html_file = getURL(url)
14# htmlファイルの取得
15doc = htmlParse(html_file, encoding="UTF-8")
16# 解析
17
18target_xpath = '/html/body/p'
19p = xpathSApply(doc, target_xpath, xmlValue)
20# ストップワードの取り出し
21
22stopwords = unlist(strsplit(p, '(\r\n){1,}'))
23# 改行を削除することで単語ごとに格納
24
25con = dbConnect(SQLite(), "reviews.db", synchronous="off")
26# レビューが保存されているデータベースに接続
27
28r1 = dbGetQuery(con, "select * from unique_reviews limit 200")
29# データベースから値を取得
30# テーブルはidとreviewとrateを持っています
31
32r1 = r1[r1$rate!=3,]
33# 評価値が3のものを取り除く
34
35for(i in length(r1$review)) {
36  r1$review[i] = zen2han(r1$review[i])
37}
38# 英数字の全角を半角にすることで英数字を半角に揃える。
39
40dtm = docMatrixDF(r1$review, weight='tf3', minFreq=2)
41# 文書単語行列に変換
42# /usr/local/etc/mecabrcにてdicdir=/usr/local/lib/mecab/dic/mecab-ipadic-neologdに変えました。
43
44dtm = dtm[rowSums(dtm) > 5, ]
45
46row_names1 = row.names(dtm)
47row_names2 = removeNumbers((row.names(dtm)))
48for(i in 1:length(row_names1)) {
49  if(row_names1[i] != row_names2[i]) {
50    dtm[i,] = NA
51    # 数字を含んでいる単語を削除する。
52    # 削除する行にNAをセット
53    # ここで毎回削除すると行にずれが生じるのでここではNAのセットに留める
54  }
55}
56dtm = na.omit(dtm)
57# NAがセットされた行をすべて削除
58
59punct = c('!', '"', '#', '$', '%', '&', "'", '(', ')', '*', '+', ',', '-', '.', '/', '・', '「', '」', '、', '。')
60stopwords = c(stopwords, punct)
61for(stopword in stopwords) {
62  dtm <- dtm[row.names(dtm) != stopword,]
63}
64# 不要な単語をある程度削除
65
66dtm = as.data.frame(dtm)
67# データフレームに変換
68
69for(i in 1:(dim(dtm)[1])) {
70  frequency = 0
71  for(j in 1:(dim(dtm)[2])) {
72    if(dtm[[j]][[i]] > 0) {
73      frequency = frequency + 1
74    }
75  }
76  if(frequency < 5) {
77    dtm[i,] = NA
78  }
79}
80dtm = na.omit(dtm)
81# ある単語がどれだけの文書に出現しているかを計算
82
83dtm = as.data.frame(t(dtm))
84# 転置
85
86rate = c()
87for(i in r1$rate) {
88  if(i > 3) {
89    rate = c(rate, 1)
90    } else {
91    rate = c(rate, -1)
92  }
93}
94# ポジティブ、ネガティブで分類するために4,5の評価を1に、1,2の評価を-1にしました
95
96dtm = cbind(dtm, Class=as.ordered(rate))
97# 評価値（クラス）を追加
98
99train_index = 1:(dim(dtm)[1] * 0.8)
100# 分割用のインデックスを作成
101# 学習用を8割、テスト用を2割
102dtm.train = dtm[train_index,]
103# 学習用データ
104dtm.test = dtm[-train_index,]
105# テストデータ
106
107set.seed(50)
108# 乱数固定
109
110weights = 100/table(rate)
111# 重みの計算
112doc.bayes = naiveBayes(Class~., data=dtm.train, cross=15, class.weights=c('-1'=weights[[1]], '1'=weights[[2]]))
113# 重み調整により不均衡データへ対応しています。
114
115prediction <- predict(doc.bayes, dtm.test[, -ncol(dtm.test)] )
116# 答えの列を削除して予測
117
118precision <- table(dtm.test[, ncol(dtm.test)], prediction)
119# 混同行列に合計がつかないものを作成。
120
121confusion_matrix = addmargins(precision)
122# 混同行列の作成
123print(confusion_matrix)
124# 混同行列の表示
125
126accuracy = (confusion_matrix[1,1] + confusion_matrix[2,2]) / confusion_matrix[3, 3]
127# 正解率の計算
128print(accuracy)
129# 正解率の表示

以下のような結果になります。

R
1print(confusion_matrix)
2     prediction
3      -1  1 Sum
4  -1   4  0   4
5  1   31  0  31
6  Sum 35  0  35
7
8print(accuracy)
9[1] 0.1142857

行動規範の内容に同意します

回答1件

ベストアンサー

ストップワードの元になるデータはプレインテキストなので、HTMLとみなしてXPathで内容を取り出そうとしてもなにも取れないように思います。結果として、ノイズが多くなっている可能性はあります。

まずは、文書単語行列の内容をprint文かなにかで出力するようにして、思い通りのものが取得できているか (不要なものを取り除けているか) を確認してみてはどうでしょうか。

投稿2016/11/13 03:08

ikedas

総合スコア4333

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう！

正解率が極端に低い原因がわかりません。

関連した質問