表題の件でアドバイスを頂きたいです。
テキストデータを読み込み、形態素解析を行い、word2vecでベクトル化させるという部分をpythonでコードを書き、学習しています。
次のステップとして、主軸となるワードに対して一緒に用いられる頻度が高い単語の抽出が出来たらと考えています。
上記の内容が'共起'ということを指しているのかなと思い調べてみたのですが、あてはまる内容を見つけられず、プログラミングもサンプルを見ながらでしか書き進めることが出来ないレベルなのでどういったモジュールを使うのか、どのように共起している単語の抽出を実装していけばよいか分からず悩んでいます。
調べ方が悪いのだと思いますが、そもそも自分がやろうとしている共起している単語の抽出はpythonを用いて実装することは可能でしょうか?
またどのように学習していけばよいかアドバイスを頂きたいです。
機械学習、自然言語処理ついて勉強し始めたばかりで知識もないので的外れな内容かもしれませんがよろしくお願いいたします。
気になる質問をクリップする
クリップした質問は、後からいつでもMYページで確認できます。
またクリップした質問に回答があった際、通知やメールを受け取ることができます。
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
回答3件
0
gensimの中にmost_similarという関数があるので、試してみてはいかがでしょうか。これは所定の単語に近似したベクトルを有した単語を抽出するものなので、何らかの方法で得た主軸となる単語とオプションパラメーターを設定して呼び出せば、とりあえず結果は出ます。ただし、学習そのものがうまくいっていないと結果も使えないものが出力されるので、適宜、モデルのチューニングをしてください
投稿2018/05/24 01:31
総合スコア3376
0
ベストアンサー
主軸となるワードって何ですか・・・
共起語の抽出自体は、形態素解析さえできていれば(なにをもって共起と考えるのかにもよりますが)簡単にできます。word2vecは不要です。練習だと思ってpure pythonで書いてみては。
投稿2018/05/24 01:14
総合スコア30933
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2018/05/24 01:36
2018/05/24 02:18
2018/05/24 02:25
2018/05/24 02:49
2018/05/24 13:31
2018/05/24 13:53
0
テキストから単語を取り出すには、テキストの形態素解析を行い、特定の種類の形態素(例えば、名詞と形容詞)を抽出します。(英語などはスペース文字で単語が分かれているので単語に切り分けるのが容易ですが、日本語はスペースを入れませんから形態素解析するのが普通です)
'共起'は対象範囲が定まれば機械的に判断できます。1つのテキストブロック(文、段落、章、頁)から抽出された単語群を'共起語集合'とすれば良いわけですから。(文、段落、章、頁の区切りは判りますよね)
共起関係、共起語集合、などの単語でWeb検索して見つかった、情報処理学会や言語処理学会の論文に目を通してみると思います。
投稿2018/05/24 01:14
総合スコア6915
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2018/05/24 01:33
あなたの回答
tips
太字
斜体
打ち消し線
見出し
引用テキストの挿入
コードの挿入
リンクの挿入
リストの挿入
番号リストの挿入
表の挿入
水平線の挿入
プレビュー
質問の解決につながる回答をしましょう。 サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。 また、読む側のことを考えた、分かりやすい文章を心がけましょう。
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2018/05/24 01:53
2018/05/24 13:49
2018/05/25 01:27
2018/05/25 09:08