回答率: 85.29%

質問するログイン新規登録

トップ Pythonに関する質問 pythonで文書間のコサイン類似度を求める

編集履歴

回答編集履歴

2

修正

2018/12/06 12:40

投稿

スコア30939

answer CHANGED Viewed

@@ -16,7 +16,7 @@
 """
 ```
-余談ですが、tfidfの計算もsklearnで楽に行なえます。分かち書きされたテキストのリストを渡せば良いです。
+余談ですが、tfidfの計算もsklearnで楽に行なえます。分かち書きされた文字列のリストを渡せば良いです。日本語でちゃんと動かすには、`analyzer`を自分で定義するなどする必要があります。
 https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.html
@@ -28,16 +28,16 @@
         "電車 が 空い た",
         "りんご が いっぱい"]
-tfidf = TfidfVectorizer()
+tfidf = TfidfVectorizer(analyzer=lambda s:s.split())
 vectors = tfidf.fit_transform(data).toarray()
 print(tfidf.get_feature_names())
 print(vectors)
 """ =>
-['いっぱい', 'お腹', 'りんご', '空い', '電車']
+['いっぱい', 'お腹', 'が', 'た', 'りんご', '空い', '電車']
-[[0.         0.70710678 0.         0.70710678 0.        ]
+[[0.         0.53931298 0.35696573 0.53931298 0.         0.53931298        0.        ]
- [0.70710678 0.70710678 0.         0.         0.        ]
+ [0.64043405 0.64043405 0.42389674 0.         0.         0.                0.        ]
- [0.         0.         0.         0.6191303  0.78528828]
- [0.6191303  0.         0.78528828 0.         0.        ]]
+ [0.         0.         0.32902288 0.4970962  0.         0.4970962         0.6305035 ]
+ [0.5728925  0.         0.37919167 0.         0.72664149 0.                0.        ]]
 """
 ```

1

追記

2018/12/06 12:40

投稿

スコア30939

answer CHANGED Viewed

@@ -14,4 +14,31 @@
  [0.44631947 0.         0.1162559 ]
  [0.14469177 0.1162559  0.        ]]
 """
-```
+```
+余談ですが、tfidfの計算もsklearnで楽に行なえます。分かち書きされたテキストのリストを渡せば良いです。
+https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.html
+```python
+from sklearn.feature_extraction.text import TfidfVectorizer
+data = ["お腹 が 空い た",
+        "お腹 が いっぱい",
+        "電車 が 空い た",
+        "りんご が いっぱい"]
+tfidf = TfidfVectorizer()
+vectors = tfidf.fit_transform(data).toarray()
+print(tfidf.get_feature_names())
+print(vectors)
+""" =>
+['いっぱい', 'お腹', 'りんご', '空い', '電車']
+[[0.         0.70710678 0.         0.70710678 0.        ]
+ [0.70710678 0.70710678 0.         0.         0.        ]
+ [0.         0.         0.         0.6191303  0.78528828]
+ [0.6191303  0.         0.78528828 0.         0.        ]]
+"""
+```
+特別な理由がなければ自分で書く必要はありません。