質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

Q&A

解決済

1回答

726閲覧

python gensim のパラメータについて

ode

総合スコア25

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

0グッド

0クリップ

投稿2017/06/30 05:28

いつもお世話になっております。

ただいま、python gensimを使用してあるデータに対してLDAをかけています。

http://qiita.com/HirofumiYashima/items/c8aa8df214d48c86ecba
私がしようとしていたことを写経してされていた方がいらっしゃったので、そのまま実行しました。その結果同じ結果が得られてとてもよかったのですが、

各トピックにおける各トークンの出現確率を表示する過程で、単語と出現確率が10個までしか表示されていません。この部分をより多く出現させることは可能なのでしょうか?
gensimのAPIを見てみたのですが、よく分からず…。

また、各文書ごとの推定トピックを出力する過程でも、各文書の推定の確信度が1でないことを疑問に思っております。

どうか助言いただけないでしょうか?

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

ベストアンサー

https://github.com/RaRe-Technologies/gensim/blob/develop/gensim/models/ldamodel.py#L764

Python

1for topic in lda.show_topics(-1, num_words=20): 2 print(topic)

とかでいいんじゃないでしょうか。動かしてはいませんが。

また、各文書ごとの推定トピックを出力する過程でも、各文書の推定の確信度が1でないことを疑問に思っております。

確信度が1になったらバグを疑うような挙動と思いますが……

投稿2017/06/30 05:53

quickquip

総合スコア11038

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

ode

2017/06/30 07:02 編集

ご回答ありがとうございます。 単語数を増やすことができました。 それとなぜ確信度が1になるとよくないのでしょうか? 勉強不足で申し訳ありません。
quickquip

2017/06/30 07:05

LDAの式として1に推定されるなんてことがありえますか? という話がひとつ。 あと、推定のプログラム全般の話として、それがたとえ学習につかっているデータであっても推定の結果が1になるようなら、なんらかのバグか、過学習を疑うべき状況だと思います。
quickquip

2017/06/30 07:17

LDAでいえば、確信度が1という状況は、ある文書があるトピックAに属しているとして、その文章に登場する(足切り後に残った)*すべての* 単語が、トピックAの文書にしか出てこなくて、他のトピックには *一切登場していない* という状況です。 そんなことがありえますか? もしそんなことになったら、 足切りを間違えてほんの少しの語しか残ってない とか 文書Aに属する単語がトピックA以外のトピックに属する確率が0になるような間違った更新をしてしまった とか そういう事態を疑う方が先でしょう、ということです。
ode

2017/07/03 02:22

お返事が遅れてしまって大変申し訳ありません。 詳しくありがとうございます。 1にならないことは理解できました。 またひとつ疑問ができたのですが、 一つの発話に対して一つのトピックの確信度が表示されていますが、 一つの発話に対して、各トピックごとの確信度を出すことはできないのでしょうか?
quickquip

2017/07/03 02:38

show_topicsの第1引数に-1を指定すると全トピックが表示されていますよね?
ode

2017/07/03 03:25

すみません。解決致しました。 ありがとうございました。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問