質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

自然言語処理

自然言語処理は、日常的に使用される自然言語をコンピューターに処理させる技術やソフトウェアの総称です。

Q&A

解決済

1回答

1768閲覧

トピックモデルを用いた文書分析のコードに関する疑問点

退会済みユーザー

退会済みユーザー

総合スコア0

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

自然言語処理

自然言語処理は、日常的に使用される自然言語をコンピューターに処理させる技術やソフトウェアの総称です。

0グッド

0クリップ

投稿2018/10/14 11:26

前提・実現したいこと

トピックモデルを用いた文書分析を以下の参考記事に沿って行おうとしています。
参考記事

発生している問題・エラーメッセージ

参考記事では、題材として青空文庫の夏目漱石の作品を使ったと書いてありましたが、
前処理が肝心のコードに反映されていないので、データセットがどれくらい必要で、
ソースコードのどこに分析したいファイルをおけばいいのか見当がつきません。

また、引数のtitlesの具体例がないので、何を示しているのか、わかりません。

該当のソースコード

以下、参考記事より。

Python

1import gensim 2 3def make_lda_model(texts, titles): 4 dic = gensim.corpora.Dictionary(texts) 5 dic.filter_extremes(no_below=1, no_above=0.05) 6 dic.filter_n_most_frequent(100) 7 corpus = [dic.doc2bow(text) for text in texts] 8 lda = gensim.models.ldamodel.LdaModel(corpus=corpus, num_topics=TOPICS, id2word=dic) 9 # Topicの表示 10 for x in lda.show_topics(-1, 5): 11 print(x) 12 13 # 各文書の所属Topic 14 for t, s in zip(titles, lda[corpus]): 15 print(t, max(s, key=(lambda x:x[1])))

補足情報(FW/ツールのバージョンなど)

Python3.6

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

wwbQzhMkhhgEmhU

2018/10/14 22:07

書いた本人に聞かないと分からないのでしょうが、多分青空文庫にある夏目漱石の全作品とかじゃないかと思います。それらを形態素解析して諸々した結果を作品ごとにtextsに入れてるんじゃないでしょうか。
退会済みユーザー

退会済みユーザー

2018/10/15 05:43

ご質問いただきましてありがとうございます。もしご存知であれば、このコードにこだわりはないので、似たようなトピックモデルを用いた分析に関する参考サイトなどを教えていただけますと助かります。
wwbQzhMkhhgEmhU

2018/10/15 10:14

gensim mecabで検索すれば出てきそうな気がします。まぁ別に夏目漱石でも形態素解析して自立語だけ取れば問題ないと思いますが…
guest

回答1

0

ベストアンサー

データセットがどれくらい必要

やりたいことによりますが、分析対象の文書群にどのようなトピックで構成されているのかを明らかにしたいのであれば、それほどのボリュームは必要ありません。一方、あらかじめ学習したモデルに未知の文章を適用するような使い方をする場合は、それなりのボリュームが必要です。
質問に記載の参考記事は、gensimの使い方を示すことが目的なので、特定の小説(例えば、坊ちゃん)のみであろうと、複数の小説であろうと何らかの結果は得られるかと思います。
個人的な経験からすると、ある程度似たジャンルを扱った文書を扱う場合は意外を少ないボリュームでも役に立つモデルになります。なのでご自身が頻繁に閲覧しているブログなどを対象にしたほうが結果に手触り感が出ていいかと思います。

前処理などを含めた実装のサンプル

個人的には以下がお薦めです。
https://qiita.com/icoxfog417/items/7c944cb29dd7cdf5e2b1
(全コードはリンク先のgithubにあります)
ただし、上記は形態素解析のコードが含まれていませんので、別に調べてください。

投稿2018/10/15 23:26

R.Shigemori

総合スコア3376

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問