質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

90.38%

  • Python

    12875questions

    Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

LDAモデルのperplexityの評価について

解決済

回答 1

投稿 編集

  • 評価
  • クリップ 0
  • VIEW 1,566

ode

score 15

いつもお世話になっていおります。

前提・実現したいこと

ただいま、python gensimを使用してLDAモデルを作成しております。
適したトピック数を決めるため、perplexityを見て評価しようと考えております。

発生している問題・エラーメッセージ

gensim のAPIを参照したところ、
log_perplexity(chunk, total_docs=None)
というそれらしい関数が引っかかり、この関数を使用してどうにか実行してみようと思ったのですが、うまくいきません。

エラーメッセージ
AttributeError: 'module' object has no attribute 'log_perplexity'


このエラー自体は、「そんな関数ないよ」のようなことを言われているのかな…?と思いますが、入れるべき引数等分からないことが多く、困っております。

該当するコード
lda = gensim.models.ldamodel.LdaModel(corpus = corpus, num_topics = 40, id2wor\
d=corpus.id2word, minimum_probability = 0.0)

per = gensim.models.ldamodel.log_perplexity(lda, total_docs = None)

助言いただければ幸いです。
よろしくお願いいたします。

追記

現在のコード
#!/usr/bin/python
# -*- coding: utf-8 -*-
import codecs
import gensim

# Lowcorpusメソッドで、テキストファイルを読み込み
corpus = gensim.corpora.lowcorpus.LowCorpus('sample_wakachi_100_w.txt')
f0 = codecs.open('per_40_sample_corpus.txt', 'w', 'utf-8')
f0.write(str(corpus))
f0.close()

# gensim の LdaModelメソッドに生成した corpus を渡して、LDAモデルを生成
lda = gensim.models.ldamodel.LdaModel(corpus = corpus, num_topics = 40, id2word\
=corpus.id2word, minimum_probability = 0.0)

per = lda.log_perplexity(corpus, total_docs = None)

f1 = codecs.open('per_40_per.txt', 'w', 'utf-8')
f1.write(str(per))
f1.close()
-6.71820347253
  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

回答 1

checkベストアンサー

0

gensimの処理内容については不勉強なので、どのような引数を渡せばよいのかは私にはアドバイスできませんが。

log_perplexitymodels.ldamodelのクラスメソッドなのでlda.log_perplexity(...)と呼び出します。

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2017/07/27 16:31

    ご回答ありがとうございます。
    変更いたしましたところ、また違うエラーが出ました。

    File "lda_per.py", line 21, in <module>
    f1.write(per)
    File "/usr/local/lib/python2.7/codecs.py", line 706, in write
    return self.writer.write(data)
    File "/usr/local/lib/python2.7/codecs.py", line 369, in write
    data, consumed = self.encode(object, self.errors)
    TypeError: coercing to Unicode: need string or buffer, numpy.float64 found

    キャンセル

  • 2017/07/27 16:40

    ソースコード不明なのでエスパー回答となりますが
    f1はFileオブジェクトなのでf1.write(...)には文字列を渡すべきなのにperはnumpy.float64だと思われます。
    perを文字列に変換するなり適切にソース修正すべきかと思います。

    キャンセル

  • 2017/07/27 16:50

    文字列変換しましたら、実行できました。
    ありがとうございます。
    現在のコードと実行結果を追記いたしますので、見ていただければ幸いです。

    キャンセル

  • 2017/11/06 12:02

    lda.log_perplexity(...)で得た値はLDAモデルのperlexity値でしょうか

    キャンセル

15分調べてもわからないことは、teratailで質問しよう!

  • ただいまの回答率 90.38%
  • 質問をまとめることで、思考を整理して素早く解決
  • テンプレート機能で、簡単に質問をまとめられる

同じタグがついた質問を見る

  • Python

    12875questions

    Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。