回答編集履歴
3
ちょい修正2
answer
CHANGED
@@ -8,9 +8,9 @@
|
|
8
8
|
tfidf.__getitem__(corpus_[0])
|
9
9
|
```
|
10
10
|
|
11
|
-
に変換されるのですが(これはpythonの仕様。`[]`で値を参照しているときは内部的には`__getitem__`を呼んでいる)、`
|
11
|
+
に変換されるのですが(これはpythonの仕様。`[]`で値を参照しているときは内部的には`__getitem__`を呼んでいる)、`gensim.models.TfidfModel.__getitem__`の仕様を調べると
|
12
12
|
|
13
|
-
> __getitem__(bow, eps=1e-12)
|
13
|
+
> `__getitem__(bow, eps=1e-12)`
|
14
14
|
> Get tf-idf representation of the input vector and/or corpus.
|
15
15
|
>
|
16
16
|
> bow : {list of (int, int), iterable of iterable of (int, int)}
|
@@ -22,7 +22,7 @@
|
|
22
22
|
> TransformedCorpus – TfIdf corpus, if bow is corpus.
|
23
23
|
|
24
24
|
|
25
|
-
[gensim: models.tfidfmodel – TF
|
25
|
+
[gensim: models.tfidfmodel – TF-IDF model](https://radimrehurek.com/gensim/models/tfidfmodel.html#gensim.models.tfidfmodel.TfidfModel.__getitem__)
|
26
26
|
|
27
27
|
となっており、`eps`が怪しいので`eps=-1`で実行するようにしてみました(こうすると絶対にスレッショルドにかからない。負の値を指定して問題ないことは実装を見て確認しています)。
|
28
28
|
|
@@ -38,10 +38,10 @@
|
|
38
38
|
0.0かぁ。とすると、不幸にもlogの中身が1になったのかなぁ。と思って、色々見に行くと
|
39
39
|
|
40
40
|
|
41
|
-
[gensim: models.tfidfmodel – TF
|
41
|
+
[gensim: models.tfidfmodel – TF-IDF model #gensim.models.tfidfmodel.TfidfModel](https://radimrehurek.com/gensim/models/tfidfmodel.html#gensim.models.tfidfmodel.TfidfModel)
|
42
42
|
(数式の画像とオプションの`wglobal`を見る)
|
43
43
|
|
44
|
-
[gensim: models.tfidfmodel – TF
|
44
|
+
[gensim: models.tfidfmodel – TF-IDF model #gensim.models.tfidfmodel.df2idf](https://radimrehurek.com/gensim/models/tfidfmodel.html#gensim.models.tfidfmodel.df2idf)
|
45
45
|
(デフォルトの`wglobal`に使われている関数)
|
46
46
|
|
47
47
|
|
2
ちょい修正
answer
CHANGED
@@ -8,7 +8,7 @@
|
|
8
8
|
tfidf.__getitem__(corpus_[0])
|
9
9
|
```
|
10
10
|
|
11
|
-
に変換されるのですが(これはpythonの仕様。`[]`
|
11
|
+
に変換されるのですが(これはpythonの仕様。`[]`で値を参照しているときは内部的には`__getitem__`を呼んでいる)、`tfidf.__getitem__`の仕様を調べると
|
12
12
|
|
13
13
|
> __getitem__(bow, eps=1e-12)
|
14
14
|
> Get tf-idf representation of the input vector and/or corpus.
|
1
追記
answer
CHANGED
@@ -38,11 +38,13 @@
|
|
38
38
|
0.0かぁ。とすると、不幸にもlogの中身が1になったのかなぁ。と思って、色々見に行くと
|
39
39
|
|
40
40
|
|
41
|
-
[gensim: models.tfidfmodel – TF\-IDF model](https://radimrehurek.com/gensim/models/tfidfmodel.html#gensim.models.tfidfmodel.TfidfModel)
|
41
|
+
[gensim: models.tfidfmodel – TF\-IDF model #gensim.models.tfidfmodel.TfidfModel](https://radimrehurek.com/gensim/models/tfidfmodel.html#gensim.models.tfidfmodel.TfidfModel)
|
42
42
|
(数式の画像とオプションの`wglobal`を見る)
|
43
43
|
|
44
|
-
[gensim: models.tfidfmodel – TF\-IDF model](https://radimrehurek.com/gensim/models/tfidfmodel.html#gensim.models.tfidfmodel.df2idf)
|
44
|
+
[gensim: models.tfidfmodel – TF\-IDF model #gensim.models.tfidfmodel.df2idf](https://radimrehurek.com/gensim/models/tfidfmodel.html#gensim.models.tfidfmodel.df2idf)
|
45
|
+
(デフォルトの`wglobal`に使われている関数)
|
45
46
|
|
47
|
+
|
46
48
|
とりあえず`add=0.0`がデフォルトなのはよくないので、
|
47
49
|
参考(一番最後の行):
|
48
50
|
[idf(inverse documet frequency)について](http://www.cse.kyoto-su.ac.jp/~g0846020/keywords/idf.html)
|