ナイーブベイズを使ったテキスト分類について

現在ナイーブベイズを用いたテキスト分類器を作成しています。その時に疑問に思ったことについてお聞きしたいと思います。
ナイーブベイズを用いたテキスト分類では、ドキュメントがカテゴリに分類される確率を、カテゴリをc、ドキュメンをdとすると、 P[c|d] = P[c]P[d|c]し、ドキュメントをBoWとして、ドキュメントに含まれる用語をtiとすると、P[d|c]=Π P[ti|c]で表すことができると思います。

このP[d|c]を求める際に疑問に思ったのですが、このまま計算すると、ドキュメントに含まれる用語が多くなればなるほどP[d|c]が小さくなってしまうと思うのですが、これで合ってるのでしょうか？

行動規範の内容に同意します

回答1件

ベストアンサー

ドキュメントに含まれる用語が多くなればなるほどP[d|c]が小さくなってしまうと思うのですが、...

なりませんね。

p[ti|c] の i は、各文書に出てきた単語をあたまから 0, 1, 2,... と数えているのではなく、語彙中の単語の添字だからです。つまり、どのカテゴリについても総積記号Πのかける回数（語彙サイズ）は同じです。

投稿2017/01/21 21:22

編集2017/01/21 21:24

MasashiKimura

総合スコア1150

uramot

2017/01/22 01:07

ご回答ありがとうございます。Πの繰り返し回数は与えられた文書サイズではなく、語群サイズだったんですね。ここを勘違いしていたみたいです。

MasashiKimura

2017/01/22 01:17

当然、アンダーフローを起こすので対数をとって計算してください。

MasashiKimura

2017/01/22 01:23

https://web.stanford.edu/class/cs124/lec/naivebayes.pdf と思ったけれど、まちがっていました。申し訳ありません。小さくなるであっています。。。各ドキュメントがどのカテゴリに振り分けられるかを決めるので、同じドキュメントについてのかける回数は同じ。が正解です。恥ずかしや。

uramot

2017/01/23 14:06

ご返信ありがとうございます。やはりドキュメントに含まれる用語の数が増えるとP[d|c]は小さくなってしまうんですね。ちなみに、このような場合の対処法はどのようなものがありますか？

MasashiKimura

2017/01/24 01:30

やはり対数を取ることかと思います。

行動規範の内容に同意します