質問編集履歴
1
idfの計算式が間違っていました
test
CHANGED
File without changes
|
test
CHANGED
@@ -2,7 +2,7 @@
|
|
2
2
|
|
3
3
|
ある単語のidf値を調べる場合、
|
4
4
|
|
5
|
-
idf = log(単語が含まれる文書数
|
5
|
+
idf = log(全文書数 / 単語が含まれる文書数)
|
6
6
|
|
7
7
|
という式で求めるということになると思うのですが、ここでいう文書というのは、どのような単位で区切られているのかがわかりません。これの区切り方次第では文書数が変わってくるので、できるだけ適切な文書の単位を知りたいです。
|
8
8
|
|