質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.49%
機械学習

機械学習は、データからパターンを自動的に発見し、そこから知能的な判断を下すためのコンピューターアルゴリズムを指します。人工知能における課題のひとつです。

自然言語処理

自然言語処理は、日常的に使用される自然言語をコンピューターに処理させる技術やソフトウェアの総称です。

Q&A

解決済

1回答

1385閲覧

ナイーブベイズを使ったテキスト分類について

uramot

総合スコア20

機械学習

機械学習は、データからパターンを自動的に発見し、そこから知能的な判断を下すためのコンピューターアルゴリズムを指します。人工知能における課題のひとつです。

自然言語処理

自然言語処理は、日常的に使用される自然言語をコンピューターに処理させる技術やソフトウェアの総称です。

0グッド

1クリップ

投稿2017/01/21 15:54

編集2017/01/21 15:54

現在ナイーブベイズを用いたテキスト分類器を作成しています。その時に疑問に思ったことについてお聞きしたいと思います。
ナイーブベイズを用いたテキスト分類では、ドキュメントがカテゴリに分類される確率を、カテゴリをc、ドキュメンをdとすると、 P[c|d] = P[c]P[d|c]し、ドキュメントをBoWとして、ドキュメントに含まれる用語をtiとすると、P[d|c]=Π P[ti|c]で表すことができると思います。

このP[d|c]を求める際に疑問に思ったのですが、このまま計算すると、ドキュメントに含まれる用語が多くなればなるほどP[d|c]が小さくなってしまうと思うのですが、これで合ってるのでしょうか?

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

ベストアンサー

ドキュメントに含まれる用語が多くなればなるほどP[d|c]が小さくなってしまうと思うのですが、...

なりませんね。

p[ti|c] の i は、各文書に出てきた単語をあたまから 0, 1, 2,... と数えているのではなく、語彙中の単語の添字だからです。つまり、どのカテゴリについても総積記号Πのかける回数(語彙サイズ)は同じです。

投稿2017/01/21 21:22

編集2017/01/21 21:24
MasashiKimura

総合スコア1150

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

uramot

2017/01/22 01:07

ご回答ありがとうございます。Πの繰り返し回数は与えられた文書サイズではなく、語群サイズだったんですね。ここを勘違いしていたみたいです。
MasashiKimura

2017/01/22 01:17

当然、アンダーフローを起こすので対数をとって計算してください。
MasashiKimura

2017/01/22 01:23

https://web.stanford.edu/class/cs124/lec/naivebayes.pdf と思ったけれど、まちがっていました。申し訳ありません。 小さくなるであっています。。。 各ドキュメントがどのカテゴリに振り分けられるかを決めるので、同じドキュメントについてのかける回数は同じ。が正解です。 恥ずかしや。
uramot

2017/01/23 14:06

ご返信ありがとうございます。 やはりドキュメントに含まれる用語の数が増えるとP[d|c]は小さくなってしまうんですね。 ちなみに、このような場合の対処法はどのようなものがありますか?
MasashiKimura

2017/01/24 01:30

やはり対数を取ることかと思います。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.49%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問