質問編集履歴

変更

2020/01/12 09:32

投稿

hidemomo

スコア31

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -26,27 +26,25 @@
 mecab.parse('')
 def tokenize(text):
+    node = mecab.parse(text).splitlines()
     stop_words = [
     '％','%','g','ｇ','*','?','？','.','.','ー','*****','/','／','ml','(','（',')','）',
     '-','一']
     parts = ['名詞','形容詞','動詞','副詞']
-    node = mecab.parse(text).splitlines()
-    wrds = []
-　　temp = []
+    tokens = []
     for i in node:
         if i == 'EOS' or i == '': continue
         word_tmp = i.split()[0]
         part = i.split()[1].split(',')[0] #品詞
         if not (part in parts) or (word_tmp in stop_words): continue
-        temp.append(word_tmp)
+        tokens.append(word_tmp)
-    wrds.append(temp)
-    return wrds
+    return tokens
 tfidf_lst=[]
@@ -55,11 +53,18 @@
     tfidf = train_vectorize.fit_transform(text)
     tfidf_lst.append(tfidf)
-※上記エラーが出ます。恐らく、形状が（5000,0）だからでしょうか？
+※上記エラーが出ます。
-※ちなみに、tokenizeは機能していると思います。
+※下記テキストの形状にすると機能します。
-print(tokenize('スーパードライASAHI BREWERIES LIMITED春限定スペシャルパッケージ'))
+texts = ['スーパードライASAHI BREWERIES LIMITED春限定スペシャルパッケージ',
-out[['スーパードライ', 'ASAHI', 'BREWERIES', 'LIMITED', '春', '限定', 'スペシャル', 'パッケージ']]
+        'TaKaRa CAN CHU-HI直搾り限定出荷世界のフレーツ便カリブ海',
+        '焼き肉のたれこだわり食感のせて！巻いて！玉ねぎとガーリックの旨味']
+train_vectorize = TfidfVectorizer(tokenizer = tokenize)
+tfidf = train_vectorize.fit_transform(texts)
+tfidf.toarray()
+#out：tfidf値一覧　shape（3,28）
 ```
 元の形状（5000,0）を保持したまま、あるいは後ほど元形状に戻す方法でも良いので行ごとにtfidf値を抽出する方法をご教示ください。
 よろしくお願いします。

例文

2020/01/12 09:32

投稿

hidemomo

スコア31

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -55,7 +55,11 @@
     tfidf = train_vectorize.fit_transform(text)
     tfidf_lst.append(tfidf)
-※上記エラーが出ます。恐らく、形状が（5000,0）だからだと推察しています。
+※上記エラーが出ます。恐らく、形状が（5000,0）だからでしょうか？
+※ちなみに、tokenizeは機能していると思います。
+print(tokenize('スーパードライASAHI BREWERIES LIMITED春限定スペシャルパッケージ'))
+out[['スーパードライ', 'ASAHI', 'BREWERIES', 'LIMITED', '春', '限定', 'スペシャル', 'パッケージ']]
 ```
-defがおかしいのかもしませんが、元の形状（5000,0）を保持したまま、あるいは後ほど元形状に戻す方法でも良いので行ごとにtfidf値を抽出する方法をご教示ください。
+元の形状（5000,0）を保持したまま、あるいは後ほど元形状に戻す方法でも良いので行ごとにtfidf値を抽出する方法をご教示ください。
 よろしくお願いします。

ミスの削除

2020/01/12 09:18

投稿

hidemomo

スコア31

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -57,24 +57,5 @@
 ※上記エラーが出ます。恐らく、形状が（5000,0）だからだと推察しています。
 ```
-###他に試行したこと
-上記形状を強引に（1,）にすると計算はできます。但し、元の形状を保持できず行ごとのtfidf値が抽出できない問題にあたります。
-```python
-#test texts.shape(1,2)
-texts = [[スーパードライASAHI BREWERIES LIMITED春限定スペシャルパッケージ],
-         [TaKaRa CAN CHU-HI直搾り限定出荷世界のフレーツ便カリブ海]
-        ]
-tfidf_lst=[]
-for text in texts:
-    train_vectorize = TfidfVectorizer(tokenizer = tokenize)
-    tfidf = train_vectorize.fit_transform(text)
-    tfidf_lst.append(tfidf)
-#out　数値は抽出される。
-```
 defがおかしいのかもしませんが、元の形状（5000,0）を保持したまま、あるいは後ほど元形状に戻す方法でも良いので行ごとにtfidf値を抽出する方法をご教示ください。
 よろしくお願いします。

ミス修正

2020/01/12 08:54

投稿

hidemomo

スコア31

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -46,7 +46,7 @@
         temp.append(word_tmp)
     wrds.append(temp)
-    return text #wrdsだと計算できなくなります。
+    return wrds
 tfidf_lst=[]