質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
R

R言語は、「S言語」をオープンソースとして実装なおした、統計解析向けのプログラミング言語です。 計算がとても速くグラフィックも充実しているため、数値計算に向いています。 文法的には、統計解析部分はS言語を参考にしており、データ処理部分はSchemeの影響を受けています。 世界中の専門家が開発に関わり、日々新しい手法やアルゴリズムが追加されています。

機械学習

機械学習は、データからパターンを自動的に発見し、そこから知能的な判断を下すためのコンピューターアルゴリズムを指します。人工知能における課題のひとつです。

Q&A

解決済

1回答

1818閲覧

正解率が極端に低い原因がわかりません。

hiko1129

総合スコア79

R

R言語は、「S言語」をオープンソースとして実装なおした、統計解析向けのプログラミング言語です。 計算がとても速くグラフィックも充実しているため、数値計算に向いています。 文法的には、統計解析部分はS言語を参考にしており、データ処理部分はSchemeの影響を受けています。 世界中の専門家が開発に関わり、日々新しい手法やアルゴリズムが追加されています。

機械学習

機械学習は、データからパターンを自動的に発見し、そこから知能的な判断を下すためのコンピューターアルゴリズムを指します。人工知能における課題のひとつです。

0グッド

1クリップ

投稿2016/11/12 14:33

###前提・実現したいこと
R 3.3.2
naiveBayes

正解率を上げたいと考えています。
ksvmを利用した場合に比べて極端に低い正解率が表示されるので、どこか根本的に間違っている部分があると思われるのですがわかりませんでした。その部分を改善してまともな正解率を算出するものにしたいと考えております。
よろしくお願いいたします。

###発生している問題・エラーメッセージ
エラーが出ているわけではないのですが、正解率が極端に低いためどこかで根本的な間違いを犯しているようです。
ksvmを利用した場合は90%近くでるのですが、naiveBayesを利用した場合は10%程で、データ数を増やすと更に下がります。
1を-1と判断することが多いです。

###試したこと
docMatrixDFのweightの変更
naiveBayesのclass.weightsの削除等

特に改善しませんでした。

###コード

R

1library(XML) 2library(RCurl) 3library(tm) 4library(RSQLite) 5library(RMeCab) 6library(Nippon) 7library(e1071) 8 9 10url = 'http://svn.sourceforge.jp/svnroot/slothlib/CSharp/Version1/SlothLib/NLP/Filter/StopWord/word/Japanese.txt' 11# 日本語のストップワードリストのURLです。 12 13html_file = getURL(url) 14# htmlファイルの取得 15doc = htmlParse(html_file, encoding="UTF-8") 16# 解析 17 18target_xpath = '/html/body/p' 19p = xpathSApply(doc, target_xpath, xmlValue) 20# ストップワードの取り出し 21 22stopwords = unlist(strsplit(p, '(\r\n){1,}')) 23# 改行を削除することで単語ごとに格納 24 25con = dbConnect(SQLite(), "reviews.db", synchronous="off") 26# レビューが保存されているデータベースに接続 27 28r1 = dbGetQuery(con, "select * from unique_reviews limit 200") 29# データベースから値を取得 30# テーブルはidとreviewとrateを持っています 31 32r1 = r1[r1$rate!=3,] 33# 評価値が3のものを取り除く 34 35for(i in length(r1$review)) { 36 r1$review[i] = zen2han(r1$review[i]) 37} 38# 英数字の全角を半角にすることで英数字を半角に揃える。 39 40dtm = docMatrixDF(r1$review, weight='tf3', minFreq=2) 41# 文書単語行列に変換 42# /usr/local/etc/mecabrcにてdicdir=/usr/local/lib/mecab/dic/mecab-ipadic-neologdに変えました。 43 44dtm = dtm[rowSums(dtm) > 5, ] 45 46row_names1 = row.names(dtm) 47row_names2 = removeNumbers((row.names(dtm))) 48for(i in 1:length(row_names1)) { 49 if(row_names1[i] != row_names2[i]) { 50 dtm[i,] = NA 51 # 数字を含んでいる単語を削除する。 52 # 削除する行にNAをセット 53 # ここで毎回削除すると行にずれが生じるのでここではNAのセットに留める 54 } 55} 56dtm = na.omit(dtm) 57# NAがセットされた行をすべて削除 58 59punct = c('!', '"', '#', '$', '%', '&', "'", '(', ')', '*', '+', ',', '-', '.', '/', '・', '「', '」', '、', '。') 60stopwords = c(stopwords, punct) 61for(stopword in stopwords) { 62 dtm <- dtm[row.names(dtm) != stopword,] 63} 64# 不要な単語をある程度削除 65 66dtm = as.data.frame(dtm) 67# データフレームに変換 68 69for(i in 1:(dim(dtm)[1])) { 70 frequency = 0 71 for(j in 1:(dim(dtm)[2])) { 72 if(dtm[[j]][[i]] > 0) { 73 frequency = frequency + 1 74 } 75 } 76 if(frequency < 5) { 77 dtm[i,] = NA 78 } 79} 80dtm = na.omit(dtm) 81# ある単語がどれだけの文書に出現しているかを計算 82 83dtm = as.data.frame(t(dtm)) 84# 転置 85 86rate = c() 87for(i in r1$rate) { 88 if(i > 3) { 89 rate = c(rate, 1) 90 } else { 91 rate = c(rate, -1) 92 } 93} 94# ポジティブ、ネガティブで分類するために4,5の評価を1に、1,2の評価を-1にしました 95 96dtm = cbind(dtm, Class=as.ordered(rate)) 97# 評価値(クラス)を追加 98 99train_index = 1:(dim(dtm)[1] * 0.8) 100# 分割用のインデックスを作成 101# 学習用を8割、テスト用を2割 102dtm.train = dtm[train_index,] 103# 学習用データ 104dtm.test = dtm[-train_index,] 105# テストデータ 106 107set.seed(50) 108# 乱数固定 109 110weights = 100/table(rate) 111# 重みの計算 112doc.bayes = naiveBayes(Class~., data=dtm.train, cross=15, class.weights=c('-1'=weights[[1]], '1'=weights[[2]])) 113# 重み調整により不均衡データへ対応しています。 114 115prediction <- predict(doc.bayes, dtm.test[, -ncol(dtm.test)] ) 116# 答えの列を削除して予測 117 118precision <- table(dtm.test[, ncol(dtm.test)], prediction) 119# 混同行列に合計がつかないものを作成。 120 121confusion_matrix = addmargins(precision) 122# 混同行列の作成 123print(confusion_matrix) 124# 混同行列の表示 125 126accuracy = (confusion_matrix[1,1] + confusion_matrix[2,2]) / confusion_matrix[3, 3] 127# 正解率の計算 128print(accuracy) 129# 正解率の表示

以下のような結果になります。

R

1print(confusion_matrix) 2 prediction 3 -1 1 Sum 4 -1 4 0 4 5 1 31 0 31 6 Sum 35 0 35 7 8print(accuracy) 9[1] 0.1142857

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

ベストアンサー

ストップワードの元になるデータはプレインテキストなので、HTMLとみなしてXPathで内容を取り出そうとしてもなにも取れないように思います。結果として、ノイズが多くなっている可能性はあります。

まずは、文書単語行列の内容をprint文かなにかで出力するようにして、思い通りのものが取得できているか (不要なものを取り除けているか) を確認してみてはどうでしょうか。

投稿2016/11/13 03:08

ikedas

総合スコア4333

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問