質問するログイン新規登録

質問編集履歴

1

idfの計算式が間違っていました

2017/04/06 06:18

投稿

tetsutail
tetsutail

スコア81

title CHANGED
File without changes
body CHANGED
@@ -1,6 +1,6 @@
1
1
  tf-idf法を使いたいのですが、idfにおける一文書の単位はどのくらいにすれば良いのでしょうか?
2
2
  ある単語のidf値を調べる場合、
3
- idf = log(単語が含まれる文書数/全文書数)
3
+ idf = log(全文書数 / 単語が含まれる文書数)
4
4
  という式で求めるということになると思うのですが、ここでいう文書というのは、どのような単位で区切られているのかがわかりません。これの区切り方次第では文書数が変わってくるので、できるだけ適切な文書の単位を知りたいです。
5
5
  例えば、10個のテキストファイルに100文ずつ文字が書いてあるとします。このとき、どうなるのでしょうか。一文ずつを一文書とするのか、一形態素を一文書とするのでしょうか?それとも、また別の単位?
6
6
  適切な単位を知っている方にご教授お願いしたいです。