質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
Ruby

Rubyはプログラミング言語のひとつで、オープンソース、オブジェクト指向のプログラミング開発に対応しています。

Mecab

Mecabは、オープンソースの形態素解析エンジンです。 言語、辞書、コーパスに依存しない汎用的な設計を基本方針としています。 Mecabの由来は、開発者の好物である和布蕪(めかぶ)から名づけられました。

Q&A

解決済

1回答

900閲覧

形態素解析の名詞の結果が似ている度合いを判別する理論もしくは実装と、その結果のカテゴリ分けをしたい

yanaka

総合スコア13

Ruby

Rubyはプログラミング言語のひとつで、オープンソース、オブジェクト指向のプログラミング開発に対応しています。

Mecab

Mecabは、オープンソースの形態素解析エンジンです。 言語、辞書、コーパスに依存しない汎用的な設計を基本方針としています。 Mecabの由来は、開発者の好物である和布蕪(めかぶ)から名づけられました。

0グッド

0クリップ

投稿2017/09/18 16:09

###前提・実現したいこと
形態素解析の名詞の結果が似ていることを自動で判断する理論か実装を知りたいです。
以下は[名詞, 名詞の出現回数]の結果の例です。
結果1
["ruby", 1]
["perl" 2]
["php" 5]
結果2
["ruby", 1]
["java" 2]
["php" 5]
結果3
["ruby", 1]
["perl" 5]
["php" 1]
これらを重み付けしてどれだけ似てるかの似てる度合いを表したいです
結果をperl観点で似てるかどうかは判断できますが、総合としての似てる度合いを表したいです。
要件定義がかなり曖昧ですが、似てるということを測定できる理論などの紹介であってもいいです。

あとは単語自体をカテゴリ分けしたいです。
例えば、ruby,perl,phpなどの単語が頻出すればcategory1、焼き鳥,餃子,寿司などの単語が頻出すればcategory2、などを自動でcategory生成と、さらにcategory振り分けをしたいです。
できればカテゴリの命名も自動でできると嬉しいです。これで言えば、category1はprograming languege、category2はfood、とか。
これらに関しては参考にする理論の名称が全く思い当たりません。手探りで実装すればいいのかもしれませんが、頻出名詞からの自動のカテゴリ生成とその振り分けのアルゴリズムというか理論があれば幸いです。

###試したこと
形態素解析、機械学習、ディープラーニング、機械学習に必要な数学、統計調査、などを検索して今回やりたいことに解決する方法を探りました。
rubyでngramの実装はしました。

###補足情報(言語/FW/ツール等のバージョンなど)
ruby
mecab
pythonやRのライブラリなどでも歓迎です

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

ベストアンサー

Word2Vecという手法が、やりたいことに近そうに見えます。

まずはこのへんの解説記事から入ってみてください。
https://deepage.net/bigdata/machine_learning/2016/09/02/word2vec_power_of_word_vector.html

投稿2017/09/19 02:46

yuba

総合スコア5568

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

yanaka

2017/09/19 03:03

昨日質問投げた後に検索かけ続けてfasttextを見つけてまだリサーチ中なんですが、その関連でこのword2vecもあったので多分これが正解みたいですね 回答ありがとうございます!
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問