tf-idf法を使いたいのですが、idfにおける一文書の単位はどのくらいにすれば良いのでしょうか?
ある単語のidf値を調べる場合、
idf = log(全文書数 / 単語が含まれる文書数)
という式で求めるということになると思うのですが、ここでいう文書というのは、どのような単位で区切られているのかがわかりません。これの区切り方次第では文書数が変わってくるので、できるだけ適切な文書の単位を知りたいです。
例えば、10個のテキストファイルに100文ずつ文字が書いてあるとします。このとき、どうなるのでしょうか。一文ずつを一文書とするのか、一形態素を一文書とするのでしょうか?それとも、また別の単位?
適切な単位を知っている方にご教授お願いしたいです。
回答1件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2017/04/06 09:58