質問するログイン新規登録

回答編集履歴

3

ちょい修正2

2018/06/20 08:08

投稿

hayataka2049
hayataka2049

スコア30939

answer CHANGED
@@ -8,9 +8,9 @@
8
8
  tfidf.__getitem__(corpus_[0])
9
9
  ```
10
10
 
11
- に変換されるのですが(これはpythonの仕様。`[]`で値を参照しているときは内部的には`__getitem__`を呼んでいる)、`tfidf.__getitem__`の仕様を調べると
11
+ に変換されるのですが(これはpythonの仕様。`[]`で値を参照しているときは内部的には`__getitem__`を呼んでいる)、`gensim.models.TfidfModel.__getitem__`の仕様を調べると
12
12
 
13
- > __getitem__(bow, eps=1e-12)
13
+ > `__getitem__(bow, eps=1e-12)`
14
14
  > Get tf-idf representation of the input vector and/or corpus.
15
15
  >
16
16
  > bow : {list of (int, int), iterable of iterable of (int, int)}
@@ -22,7 +22,7 @@
22
22
  > TransformedCorpus – TfIdf corpus, if bow is corpus.
23
23
 
24
24
 
25
- [gensim: models.tfidfmodel – TF\-IDF model](https://radimrehurek.com/gensim/models/tfidfmodel.html#gensim.models.tfidfmodel.TfidfModel.__getitem__)
25
+ [gensim: models.tfidfmodel – TF-IDF model](https://radimrehurek.com/gensim/models/tfidfmodel.html#gensim.models.tfidfmodel.TfidfModel.__getitem__)
26
26
 
27
27
  となっており、`eps`が怪しいので`eps=-1`で実行するようにしてみました(こうすると絶対にスレッショルドにかからない。負の値を指定して問題ないことは実装を見て確認しています)。
28
28
 
@@ -38,10 +38,10 @@
38
38
  0.0かぁ。とすると、不幸にもlogの中身が1になったのかなぁ。と思って、色々見に行くと
39
39
 
40
40
 
41
- [gensim: models.tfidfmodel – TF\-IDF model #gensim.models.tfidfmodel.TfidfModel](https://radimrehurek.com/gensim/models/tfidfmodel.html#gensim.models.tfidfmodel.TfidfModel)
41
+ [gensim: models.tfidfmodel – TF-IDF model #gensim.models.tfidfmodel.TfidfModel](https://radimrehurek.com/gensim/models/tfidfmodel.html#gensim.models.tfidfmodel.TfidfModel)
42
42
  (数式の画像とオプションの`wglobal`を見る)
43
43
 
44
- [gensim: models.tfidfmodel – TF\-IDF model #gensim.models.tfidfmodel.df2idf](https://radimrehurek.com/gensim/models/tfidfmodel.html#gensim.models.tfidfmodel.df2idf)
44
+ [gensim: models.tfidfmodel – TF-IDF model #gensim.models.tfidfmodel.df2idf](https://radimrehurek.com/gensim/models/tfidfmodel.html#gensim.models.tfidfmodel.df2idf)
45
45
  (デフォルトの`wglobal`に使われている関数)
46
46
 
47
47
 

2

ちょい修正

2018/06/20 08:08

投稿

hayataka2049
hayataka2049

スコア30939

answer CHANGED
@@ -8,7 +8,7 @@
8
8
  tfidf.__getitem__(corpus_[0])
9
9
  ```
10
10
 
11
- に変換されるのですが(これはpythonの仕様。`[]`的なのは内部的には`__getitem__`を呼んでいる)、`tfidf.__getitem__`の仕様を調べると
11
+ に変換されるのですが(これはpythonの仕様。`[]`で値を参照しているときは内部的には`__getitem__`を呼んでいる)、`tfidf.__getitem__`の仕様を調べると
12
12
 
13
13
  > __getitem__(bow, eps=1e-12)
14
14
  > Get tf-idf representation of the input vector and/or corpus.

1

追記

2018/06/20 08:07

投稿

hayataka2049
hayataka2049

スコア30939

answer CHANGED
@@ -38,11 +38,13 @@
38
38
  0.0かぁ。とすると、不幸にもlogの中身が1になったのかなぁ。と思って、色々見に行くと
39
39
 
40
40
 
41
- [gensim: models.tfidfmodel – TF\-IDF model](https://radimrehurek.com/gensim/models/tfidfmodel.html#gensim.models.tfidfmodel.TfidfModel)
41
+ [gensim: models.tfidfmodel – TF\-IDF model #gensim.models.tfidfmodel.TfidfModel](https://radimrehurek.com/gensim/models/tfidfmodel.html#gensim.models.tfidfmodel.TfidfModel)
42
42
  (数式の画像とオプションの`wglobal`を見る)
43
43
 
44
- [gensim: models.tfidfmodel – TF\-IDF model](https://radimrehurek.com/gensim/models/tfidfmodel.html#gensim.models.tfidfmodel.df2idf)
44
+ [gensim: models.tfidfmodel – TF\-IDF model #gensim.models.tfidfmodel.df2idf](https://radimrehurek.com/gensim/models/tfidfmodel.html#gensim.models.tfidfmodel.df2idf)
45
+ (デフォルトの`wglobal`に使われている関数)
45
46
 
47
+
46
48
  とりあえず`add=0.0`がデフォルトなのはよくないので、
47
49
  参考(一番最後の行):
48
50
  [idf(inverse documet frequency)について](http://www.cse.kyoto-su.ac.jp/~g0846020/keywords/idf.html)