質問編集履歴
1
idfの計算式が間違っていました
title
CHANGED
File without changes
|
body
CHANGED
@@ -1,6 +1,6 @@
|
|
1
1
|
tf-idf法を使いたいのですが、idfにおける一文書の単位はどのくらいにすれば良いのでしょうか?
|
2
2
|
ある単語のidf値を調べる場合、
|
3
|
-
idf = log(単語が含まれる文書数
|
3
|
+
idf = log(全文書数 / 単語が含まれる文書数)
|
4
4
|
という式で求めるということになると思うのですが、ここでいう文書というのは、どのような単位で区切られているのかがわかりません。これの区切り方次第では文書数が変わってくるので、できるだけ適切な文書の単位を知りたいです。
|
5
5
|
例えば、10個のテキストファイルに100文ずつ文字が書いてあるとします。このとき、どうなるのでしょうか。一文ずつを一文書とするのか、一形態素を一文書とするのでしょうか?それとも、また別の単位?
|
6
6
|
適切な単位を知っている方にご教授お願いしたいです。
|