テキストファイル中の名詞をtf-idfのスコア順に並べたい。

Pythonで、ツイートを格納したテキストをMeCab(+natto)で形態素解析し、抽出した名詞のtf-idfのスコアを出して並べ替えたいです。コードを走らせた結果、以下のエラーが出ました。
プログラミングを始めたばかりで頼れる人もおらず、何が起きていて、どのように直せばいいのか本当に分からず、質問させていただきました。
お知恵をお貸しいただけませんでしょうか？　宜しくお願いします。

Traceback (most recent call last):
  File "tfidf_test_dataset.py", line 41, in <module>
    tfidf = vectorizer.fit_transform(corpus)
  File "/Users/macuser/Workspaces/jxpress/trendword/.direnv/python-3.7.3/lib/python3.7/site-packages/sklearn/feature_extraction/text.py", line 1652, in fit_transform
    X = super().fit_transform(raw_documents)
  File "/Users/macuser/Workspaces/jxpress/trendword/.direnv/python-3.7.3/lib/python3.7/site-packages/sklearn/feature_extraction/text.py", line 1058, in fit_transform
    self.fixed_vocabulary_)
  File "/Users/macuser/Workspaces/jxpress/trendword/.direnv/python-3.7.3/lib/python3.7/site-packages/sklearn/feature_extraction/text.py", line 970, in _count_vocab
    for feature in analyze(doc):
  File "/Users/macuser/Workspaces/jxpress/trendword/.direnv/python-3.7.3/lib/python3.7/site-packages/sklearn/feature_extraction/text.py", line 352, in <lambda>
    tokenize(preprocess(self.decode(doc))), stop_words)
  File "/Users/macuser/Workspaces/jxpress/trendword/.direnv/python-3.7.3/lib/python3.7/site-packages/sklearn/feature_extraction/text.py", line 256, in <lambda>
    return lambda x: strip_accents(x.lower())
AttributeError: 'generator' object has no attribute 'lower'

該当のソースコード

python
1from natto import MeCab
2import codecs
3import sys
4import re
5from sklearn.feature_extraction.text import TfidfVectorizer
6import numpy as np
7#ファイル読み込み
8with codecs.open("tfidf_test.txt", "r", "utf-8") as f:
9    corpus = f.read().split("\n")
10
11mecab = MeCab('-d /usr/local/lib/mecab/dic/mecab-ipadic-neologd')
12#形態素解析
13#if tagger.lang == 'ja':
14for txt in corpus:
15    words = mecab.parse(txt, as_nodes=True)
16
17    for w in words:
18        rm_list = ["RT","https","co"]
19        if w.feature.split(",")[0] == "名詞":
20            if len(w.surface) >= 2:
21                if not any(rm in w.surface for rm in rm_list):
22                    print(str(w.surface))
23                else:
24                    print("")
25            else:
26                print("")
27        else:
28            print("")
29
30corpus = [mecab.parse(txt, as_nodes=True) for line in corpus]
31#tf-idf計算
32vectorizer = TfidfVectorizer()
33tfidf = vectorizer.fit_transform(corpus)
34
35#スコアの表示
36print(tfidf.toarray())
37# テキストの数、出現した単語の数
38print(tfidf.shape)
39
40#並べ替え
41feature_names = np.array(vectorizer.get_feature_names())
42for vec in tfidf:
43    index = np.argsort(vec.toarray(), axis=1)[:,::-1]
44    feature_words = feature_names[index]
45    print(feature_words[:,:10])

txt
1自転車やバイクで世界を回っている男性が必死で追いかけてくる子猫と出会い、彼の旅を変えたおはなし
2
3京都吹奏楽コンクール高校生小編成の部で金賞をとることができました！ここまで支えてくださった方々のおかげです沢山の応援ありがとうござました
4
5今年も平谷村役場裏のひまわり畑で撮影しました。撮影した殆どの写真が変顔の自分。いちばんまともな顔の写真を。どこにいるかわかりにくいですが

補足情報（FW/ツールのバージョンなど）

iOS 10.12.6, Python 3.7.3, Atom

行動規範の内容に同意します

回答2件

そのmecab.parseはジェネレータを返していますから、適宜展開してください。

また、TfidfVectorizerはデフォルトではデータの文字列を英文テキストとみなして解析するので、少し不都合があるでしょう。

python
1data = [[word.surface for word in mecab.parse(txt, as_nodes=True)]
2        for line in corpus]
3vectorizer = TfidfVectorizer(analyzer=lambda x:x)
4result = vectorizer.fit_transform(data)
5

とかですかね。

投稿2019/08/15 04:53

hayataka2049

総合スコア30933

farinelli

2019/08/15 05:47

有難うございます。やってみます！

行動規範の内容に同意します

ベストアンサー

お疲れ様です。回答します。

下記の箇所について

python
1corpus = [mecab.parse(txt, as_nodes=True) for line in corpus]

次のように変更して実行してみてください。これで手元の環境ではエラーを回避できました。

python
1# corpus = [mecab.parse(txt, as_nodes=True) for line in corpus]
2
3docs = []
4for words in corpus:
5    doc = [str(w.surface) for w in mecab.parse(words, as_nodes=True)]
6    doc = ' '.join(doc)
7    docs.append(doc)
8corpus = docs

追記

あとすみません、重ねて恐縮なんですが、本来ならfor w in words以降で名詞のみを選んで並べ替えをしたいのですが、このコードだと名詞を表示させることしかできておらず、tfidfのスコアを出す上で必要のない他の品詞も混ざってしまっているように見受けられます。

この場合、どのように書き直せば宜しいでしょうか？

ご質問のコードに含まれていた条件分岐のloopを再利用して、次のようにかけるかと思います。
条件はif文を追加・削除して調整してみてください。

python
1# corpus = [mecab.parse(txt, as_nodes=True) for line in corpus]
2
3rm_list = ["RT","https","co"]
4docs = []
5for txt in corpus:
6    words = mecab.parse(txt, as_nodes=True)
7    doc = []
8
9    for w in words:
10        if w.feature.split(",")[0] == "名詞":
11            if len(w.surface) >= 2:
12                if not any(rm in w.surface for rm in rm_list):
13                    doc.append(str(w.surface))
14    
15    doc = ' '.join(doc)
16    docs.append(doc)
17corpus = docs

投稿2019/08/15 04:32

編集2019/08/15 05:16

m3yrin

総合スコア132

farinelli

2019/08/15 05:00

有難うございます！参考になります。あとすみません、重ねて恐縮なんですが、本来ならfor w in words以降で名詞のみを選んで並べ替えをしたいのですが、このコードだと名詞を表示させることしかできておらず、tfidfのスコアを出す上で必要のない他の品詞も混ざってしまっているように見受けられます。この場合、どのように書き直せば宜しいでしょうか？追記: for w in wordsのそれは条件分岐の練習で書いてるのが残っていて、お恥ずかしい限りです。

m3yrin

2019/08/15 05:11

お疲れ様です。回答します。ご質問のコードに含まれていた条件分岐のloopを再利用して、次のようにかけるかと思います。条件はif文を追加・削除して調整してみてください。 ```python # corpus = [mecab.parse(txt, as_nodes=True) for line in corpus] rm_list = ["RT","https","co"] docs = [] for txt in corpus: words = mecab.parse(txt, as_nodes=True) doc = [] for w in words: if w.feature.split(",")[0] == "名詞": if len(w.surface) >= 2: if not any(rm in w.surface for rm in rm_list): doc.append(str(w.surface)) doc = ' '.join(doc) docs.append(doc) corpus = docs ```

m3yrin

2019/08/15 05:13

pythonのコードがうまく表示できないので、回答にも追記します。

farinelli

2019/08/15 05:29

有難うございます。実行した結果、 tfidf = vectorizer.fit_transform(w.surface)の箇所に ValueError: Iterable over raw text documents expected, string object received. とエラーが出てしまいました。この場合、何がどうなっていてどうすればいいのか、ご教授いただけませんでしょうか？

m3yrin

2019/08/15 05:38

お疲れ様です。指摘のエラーについてですが、大元のコードには ```python tfidf = vectorizer.fit_transform(w.surface) ``` の行は見受けられないのですが、こちらは新たに加えられたコードでしょうか？ `w.surface`ですと、おそらくstringで返される値になりますので、TfidfVectorizer.fit_transform()の入力としては使用できません。 https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.html

farinelli

2019/08/15 05:46

すみません、勘違いをしていました。解決しました。有難うございます！

行動規範の内容に同意します

あなたの回答