質問編集履歴
1
一部質問の削除
title
CHANGED
File without changes
|
body
CHANGED
@@ -2,23 +2,10 @@
|
|
2
2
|
|
3
3
|
`scikit-learn`の`TfidfVectorizer`を使用してtfidfを求める。
|
4
4
|
|
5
|
-
#
|
5
|
+
# 疑問
|
6
6
|
|
7
7
|
日本語の場合、引数`analyzer`に形態素解析する関数を与えますよね。
|
8
8
|
|
9
9
|
このとき「文字列は同じだが、品詞の異なる形態素」はどのように扱われるのでしょうか?
|
10
10
|
|
11
|
-
`get_feature_names()`の結果は2つが別々になっているのでしょうか?
|
11
|
+
`get_feature_names()`の結果は2つが別々になっているのでしょうか?
|
12
|
-
|
13
|
-
# 2つ目の疑問
|
14
|
-
|
15
|
-
```python
|
16
|
-
vectorizer = TfidfVectorizer(analyzer=self.analyzer)
|
17
|
-
vectorizer_output = vectorizer.fit_transform(self._corpus)
|
18
|
-
terms = vectorizer.get_feature_names()
|
19
|
-
tfidfs = vectorizer_output.toarray()[:len(self._corpus)]
|
20
|
-
```
|
21
|
-
|
22
|
-
上のコードを実行し、変数`tfidfs`と`terms`から、ある文章Aに含まれるtermのtfidfを求めて文章Aの合計tfidfを計算できますが、`fit()`と`transform()`を正しく(?)使えばもっと簡単に計算できますか?
|
23
|
-
|
24
|
-
できるとしたら、どのようなコードになるのか教えてください。
|