質問編集履歴

一部質問の削除

2019/10/29 08:00

投稿

スコア0

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -2,23 +2,10 @@
 `scikit-learn`の`TfidfVectorizer`を使用してtfidfを求める。
-# 1つ目の疑問
+# 疑問
 日本語の場合、引数`analyzer`に形態素解析する関数を与えますよね。
 このとき「文字列は同じだが、品詞の異なる形態素」はどのように扱われるのでしょうか？
-`get_feature_names()`の結果は2つが別々になっているのでしょうか？
+`get_feature_names()`の結果は2つが別々になっているのでしょうか？
-# 2つ目の疑問
-```python
- vectorizer = TfidfVectorizer(analyzer=self.analyzer)
- vectorizer_output = vectorizer.fit_transform(self._corpus)
- terms = vectorizer.get_feature_names()
- tfidfs = vectorizer_output.toarray()[:len(self._corpus)]
-```
-上のコードを実行し、変数`tfidfs`と`terms`から、ある文章Aに含まれるtermのtfidfを求めて文章Aの合計tfidfを計算できますが、`fit()`と`transform()`を正しく（？）使えばもっと簡単に計算できますか？
-できるとしたら、どのようなコードになるのか教えてください。