質問編集履歴

ご指摘ありがとうございます。少しでも理解いただけるように修正いたしました。よろしくお願いいたします。

2021/12/08 05:57

投稿

mlkwy35

スコア1

title CHANGED Viewed

	@@ -1,1 +1,1 @@
1	- 各レビューのTFIDF の平均を出したい
1	+ 各レビューのTFIDF の平均を出したいが、string indices must be integersのエラーが出てしまう。

body CHANGED Viewed

@@ -1,44 +1,43 @@
 ### 前提・実現したいこと
-卒業研究でレビューデータのtfidfを使って情報量の多いレビューの抽出を行なっています。
+レビューデータのtfidfを使って情報量の多いレビューの抽出を行なっています。
 手順としては
-0. 番号リストmecabを使ったレビュー文の形態素解析
+0. mecabを使ったレビュー文の形態素解析
 0. ストップワードや品詞の指定による単語の取捨選択
 0. scikit-learnを使った2の単語（名詞・一般）のtfidf算出
-0. 各レビューの　tfidf値の合計/3で求めた名詞・一般の単語数（tfidfの平均値）　の算出
+0. 各レビューのtfidfの平均値の算出
-といった感じで3までは出来ているのですが、４で引数の？エラーが出てしまいました。
+といった感じで3までは出来ているのですが、４がうまくいきません。
+４に関してましては[こちらの記事](https://ichi.pro/python-de-tfidf-o-shiyoshite-tekisuto-o-yoyakusuru-207243463963268)の参考にしており、こちらを応用してレビューIDとtfidfの平均を出力し、tfidfの平均値をdfに格納したいと考えております。
 なおMacを使用しており、言語はPython、Jupyter Notebookを使用しております。
 初心者の質問で申し訳ございませんが回答のほどよろしくお願いします。
-### ソースコード
+```Python
 import pandas as pd
 df = pd.read_csv("review1.csv")
+#レビューデータにはレビューID、レビュー文、４つの評価項目の５段階評価、総合評価(４つの評価項目の平均)が格納されています。規約の関係でデータの詳細を載せることができません。
+#形態素解析を行い、その結果をデータフレームに格納
 import MeCab
 import re
-def replace_number_to_zero(text):
-    changed_text = re.sub(r'[0-9]+', "0", text)
-    changed_text = re.sub(r'[０-９]+', "0", changed_text)
-    return changed_text
 tagger = MeCab.Tagger ('-d /usr/local/lib/mecab/dic/mecab-ipadic-neologd')
 def leaving_space_between_words_column(text):
     splitted = ' '.join([x.split('\t')[0] for x in tagger.parse(text).splitlines()[:-1]])
     return splitted
 df['形態素解析'] = df['レビュー文'].map(leaving_space_between_words_column)
+#名詞・一般のみを抽出し、データフレームに格納
 def leaving_space_between_meishi_column(text):
     splitted = ' '.join([x.split('\t')[0] for x in tagger.parse(text).splitlines()[:-1]
                          if (x.split('\t')[1].split(',')[0]  in ["名詞"]) and (x.split('\t')[1].split(',')[1]  in ["一般"])])
     return splitted
 df['名詞'] = df['形態素解析'].map(leaving_space_between_meishi_column)
+#名詞・一般の単語のtfidf値出力
 from sklearn.feature_extraction.text import TfidfVectorizer
 def words_tfidfs():
     vectorizer = TfidfVectorizer(min_df=0.05)
     X = vectorizer.fit_transform(df["名詞"])
@@ -50,40 +49,46 @@
         for w_id,tfidf in sorted(enumerate(vec), key = lambda x:x[1],reverse=True):
             lemma = words[w_id]
             TFIDF_scores = {"ID:{},word:{},tfidf:{}".format(doc_id,lemma,tfidf)}
+　　　　　　　#レビューID,手順3で求めた名詞・一般の単語,その単語のtfidf
             word_info.append(TFIDF_scores)
     return word_info
+#同一レビューIDのtfidfの平均値を求める
 def get_sent_score():
     sentence_info = []
-    for doc in df["レビュー文"]:
+    for doc in df:
         sent_score = 0
         for i in range(0,len(word_info)):
-            sent_score = word_info[i]
+            temp_dict = TFIDF_scores[i]
-            if df["レビューID"] == TFIDF_scores["ID"]:
+            if doc["doc_id"] == temp_dict["ID"]:
-                sent_score += TFIDF_scores["tfidf"]
+                sent_score += temp_dict["tfidf"]
+                tfidf_mean=average(sent_score)
-        temp = {"ID":df["レビューID"],"TFIDF_total":sent_score}
+        temp = {"ID":eval(doc["doc_id"]),"TFIDF_mean":tfidf_mean}
-        sentence_info.append(temp)
+        sentence_info.append(temp)
     return sentence_info
+#tempを出力したい
 sentence_score = get_sent_score()
-### エラー
-word_infoが読み込まれていない。
----------------------------------------------------------------------------
+```### エラー文
+```python
-NameError                                 Traceback (most recent call last)
+TypeError                                 Traceback (most recent call last)
 /var/folders/jc/q646bg4n6sgbsq38v8vjg6bw0000gp/T/ipykernel_6972/3767257272.py in <module>
 ----> 1 sentence_score = get_sent_score()
-/var/folders/jc/q646bg4n6sgbsq38v8vjg6bw0000gp/T/ipykernel_6972/3630087309.py in get_sent_score()
+/var/folders/jc/q646bg4n6sgbsq38v8vjg6bw0000gp/T/ipykernel_6972/1195801929.py in get_sent_score()
-      3     for doc in df["レビュー文"]:
-      4         sent_score = 0
-----> 5         for i in range(0,len(word_info)):
-      6             sent_score = word_info[i]
+      8                 sent_score += temp_dict["tfidf"]
+      9                 tfidf_mean=average(sent_score)
-      7             if df["レビューID"] == TFIDF_scores["ID"]:
+---> 10         temp = {"ID":eval(doc["doc_id"]),"TFIDF_mean":tfidf_mean}
+     11         sentence_info.append(temp)
+     12
-NameError: name 'word_info' is not defined
+TypeError: string indices must be integers
+```
-Python3.10
+### 追記
+先ほどの質問について説明が不足しておりご不便をおかけいたしました。関数のエラーについては解決できたのですが、次は別のエラーで苦労しています。有識者の方、ぜひ回答いただければと思います。

7 619 716 778 1248