質問するログイン新規登録

質問編集履歴

1

一部質問の削除

2019/10/29 08:00

投稿

退会済みユーザー
title CHANGED
File without changes
body CHANGED
@@ -2,23 +2,10 @@
2
2
 
3
3
  `scikit-learn`の`TfidfVectorizer`を使用してtfidfを求める。
4
4
 
5
- # 1つ目の疑問
5
+ # 疑問
6
6
 
7
7
  日本語の場合、引数`analyzer`に形態素解析する関数を与えますよね。
8
8
 
9
9
  このとき「文字列は同じだが、品詞の異なる形態素」はどのように扱われるのでしょうか?
10
10
 
11
- `get_feature_names()`の結果は2つが別々になっているのでしょうか?
11
+ `get_feature_names()`の結果は2つが別々になっているのでしょうか?
12
-
13
- # 2つ目の疑問
14
-
15
- ```python
16
- vectorizer = TfidfVectorizer(analyzer=self.analyzer)
17
- vectorizer_output = vectorizer.fit_transform(self._corpus)
18
- terms = vectorizer.get_feature_names()
19
- tfidfs = vectorizer_output.toarray()[:len(self._corpus)]
20
- ```
21
-
22
- 上のコードを実行し、変数`tfidfs`と`terms`から、ある文章Aに含まれるtermのtfidfを求めて文章Aの合計tfidfを計算できますが、`fit()`と`transform()`を正しく(?)使えばもっと簡単に計算できますか?
23
-
24
- できるとしたら、どのようなコードになるのか教えてください。