質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.49%
自然言語処理

自然言語処理は、日常的に使用される自然言語をコンピューターに処理させる技術やソフトウェアの総称です。

Q&A

解決済

1回答

2715閲覧

tf-idfにおける文書(document)とは

tetsutail

総合スコア81

自然言語処理

自然言語処理は、日常的に使用される自然言語をコンピューターに処理させる技術やソフトウェアの総称です。

0グッド

0クリップ

投稿2017/04/06 06:11

編集2017/04/06 06:18

tf-idf法を使いたいのですが、idfにおける一文書の単位はどのくらいにすれば良いのでしょうか?
ある単語のidf値を調べる場合、
idf = log(全文書数 / 単語が含まれる文書数)
という式で求めるということになると思うのですが、ここでいう文書というのは、どのような単位で区切られているのかがわかりません。これの区切り方次第では文書数が変わってくるので、できるだけ適切な文書の単位を知りたいです。
例えば、10個のテキストファイルに100文ずつ文字が書いてあるとします。このとき、どうなるのでしょうか。一文ずつを一文書とするのか、一形態素を一文書とするのでしょうか?それとも、また別の単位?
適切な単位を知っている方にご教授お願いしたいです。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

ベストアンサー

tf-idf法での特徴量を求める式tf*idfの値は
ある単語が、1つの文書内で多く出現し、他の文書ではめったに出現しないものが高くなります。

すなわち、**どのような文書の単位で特徴分けをしたいか?**により、文書の単位を変えます。

簡単な例で「日記」を考えます。

ある人の各日毎の内容の特徴を求めたい場合は、1日分の日記の文章を1文書とします。
すると、ある日は「卒業」、ある日は「入社」が高くなるなどの結果が出ます。

各人の日記全体の内容の特徴を求めたい場合は、各人の日記の全期間の文章を連結したものを1文書とします。
すると、ある人は「プログラム」、ある人は「サッカー」が高くなるなどの結果が出ます。

参考:TF-IDFで文書内の単語の重み付け

投稿2017/04/06 07:12

編集2017/04/06 07:13
can110

総合スコア38252

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

tetsutail

2017/04/06 09:58

ありがとうございます。非常にわかりやすい説明でした。 どんな場合にも最適な文書単位はなく、何に対して特徴的な言葉を調べたいかによって適切な文書単位は変わってくるんですね。硬く考え過ぎでした。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.49%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問