質問編集履歴

試したことの追記

2018/09/05 22:27

投稿

退会済みユーザー

スコア0

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -1,5 +1,6 @@
 ### 前提・実現したいこと
 [TF-IDFを使ってFAQに回答する](http://tadaoyamaoka.hatenablog.com/entry/2017/04/25/224748)という記事を読みながら実装を進めています。
+TF-IDF値が高い順に出力を得ることを実現したいです。
 ### 発生している問題・エラーメッセージ
 以下のコードのコメントアウトされている部分のvectorizer.vocabulary_.items()が何を指しているのか理解できません。何を指しているのか教えていただきたいです。
@@ -58,6 +59,43 @@
     print()
 ```
+### 試したこと
+[類似するコードが載っていた記事](http://ailaby.com/tfidf/)を使って、vectorizer.vocabulary_.items()の振る舞いを確認しようとしましたが、
+sortを行うとあいうえお順に出力され、sortをしないとただ分かち書きされた単語が順番に出力されるだけだったので、TF-IDF値が高い順に並べることはできないのでしょうか。
+```python
+import numpy as np
+from sklearn.feature_extraction.text import TfidfVectorizer
+np.set_printoptions(precision=2)
+docs = np.array([
+        'みぞれ　とは　何ですか？',      # 文書１
+        '台風　と　ハリケーン　の　違いは？',      # 文書２
+        '異常気象　に　ついて'
+        ])
+vectorizer = TfidfVectorizer(use_idf=True)
+vecs = vectorizer.fit_transform(docs)
+print (vecs.toarray())
+for k,v in sorted(vectorizer.vocabulary_.items(), key=lambda x:x[1]):
+    print (k)
+```
+```
+[[ 0.    0.58  0.58  0.    0.58  0.    0.    0.  ]
+ [ 0.    0.    0.    0.58  0.    0.58  0.    0.58]
+ [ 0.71  0.    0.    0.    0.    0.    0.71  0.  ]]
+ついて
+とは
+みぞれ
+ハリケーン
+何ですか
+台風
+異常気象
+違いは
+```
 ### 補足情報（FW/ツールのバージョンなど）
 Python 3.6.0 :: Anaconda 4.3.0

317 514 778 7 619

タグの追記

2018/09/05 22:27

投稿

退会済みユーザー

スコア0

title CHANGED Viewed

File without changes

body CHANGED Viewed

File without changes

317 514 778 7 619