編集履歴

質問編集履歴

質問文の変更，エラーメッセージの追加

2019/10/16 08:04

投稿

farinelli

スコア61

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -1,9 +1,7 @@
-テキストファイルから特定の文字列を除去した後，形態素解析によりストップワードを含まない2文字以上の名詞を抽出，表示させたいと思っています．
+テキストファイルから特定の文字列を除去した後，Mecab-python3を用いた形態素解析によりストップワードを含まない2文字以上の名詞を抽出，表示させたいと思っています．
-しかし，最終行で条件に合う名詞を出力しようとした際，以下の写真のような結果になりました．
+しかし，名詞のセレクションの段階で以下のエラーが出てきました．("#該当箇所"の行です)
-![イメージ説明](0b3707c27c658fc36ae04b3e9c6ab71f.png)
-又，”#該当箇所”と記した行の箇所で文章中の名詞を出力させた結果，本来のテキストの一部が1文字ずつに分割されて出力された事は確認済みです．
-今回このような結果になった事を受けて，何か不適切な書き方をしてしまっているのか，あるいは不足している情報があるのか自分の知識では判断できない状況です．
+従来natto-pyを使っていたときでも同様の現象が飽きており，何か不適切な書き方をしてしまっているのか，あるいは不足している情報があるのか自分の知識では判断できない状況です．
 この件に関する原因と解決策がご存知の方に是非ご教示頂きたいです．
 宜しくお願いします．
@@ -20,6 +18,14 @@
 ```
 [[“ゲノム”], [“配列”], [“決定”], [“容易”], [“結果”], [“多く”], [“新規”], [“遺伝子”],,,]#途中省略
 ```
+### エラー
+```test.txt
+Traceback (most recent call last):
+  File "renshu2.py", line 64, in <module>
+    if w.feature.split(",")[0] == "名詞":
+AttributeError: 'str' object has no attribute 'feature'
+```
 ### コード
 ```renshu.py
 import os
@@ -28,7 +34,7 @@
 from collections import Counter
 from collections import defaultdict
 import re
-from natto import MeCab
+import MeCab
 import codecs
 import sys
 from sklearn.feature_extraction.text import TfidfVectorizer
@@ -38,17 +44,18 @@
 from gensim import corpora
 from itertools import chain
+mecab = MeCab.Tagger('-d /usr/local/lib/mecab/dic/mecab-ipadic-neologd')
 #日本語ツイートを読み込む + 文書数を表示
 count = 0
-with codecs.open("test.txt", "r", "utf-8") as f:
+with codecs.open("protein.txt", "r", "utf-8") as f:
     corpus = f.read()
     #print(corpus)
 #テキストデータの行数を取得する
-num_lines = sum(1 for line in open("test.txt"))
+num_lines = sum(1 for line in open("protein.txt"))
+#print(num_lines)
-mecab = MeCab('-d /usr/local/lib/mecab/dic/mecab-ipadic-neologd')
 #名詞の抽出と整形
 rm_list = ["RT","https","co"]
@@ -57,7 +64,6 @@
 path = 'stop_words.txt'
 with open(path) as g:
     stop_words = g.readlines()
 #url, 返信, RT, 絵文字の除去
 corpus = re.sub(r"http\S+", "", corpus)
 corpus = re.sub(r"@(\w+) ", "", corpus)
@@ -69,20 +75,22 @@
 u"\U0001F1E0-\U0001F1FF"
 "]+", flags=re.UNICODE)
 corpus = emoji_pattern.sub("", corpus)
-texts = str(corpus)
+#texts = str(corpus)
-#print(texts)
+print(corpus)
+texts = mecab.parse(corpus)
 #名詞の抽出とスクリーニング
 docs = []
 for txt in texts:
-    words = mecab.parse(txt, as_nodes=True)
+    words = mecab.parse(txt)
     doc = []
-   for w in words:
+    for w in words:
-        if w.feature.split(",")[0] == "名詞": #該当箇所
+        if w.feature.split(",")[0] == "名詞":#該当箇所
             if len(w.surface) >= 2:
                 if w.surface not in rm_list:
                     doc.append(w.surface)
+                    #print(doc)
     docs.append(doc)
 #本来の意味とは別だがcorpusに単語群を格納
 corpus = docs