形態素解析の名詞の結果が似ている度合いを判別する理論もしくは実装と、その結果のカテゴリ分けをしたい

###前提・実現したいこと
形態素解析の名詞の結果が似ていることを自動で判断する理論か実装を知りたいです。
以下は[名詞, 名詞の出現回数]の結果の例です。
結果1
["ruby", 1]
["perl" 2]
["php" 5]
結果2
["ruby", 1]
["java" 2]
["php" 5]
結果3
["ruby", 1]
["perl" 5]
["php" 1]
これらを重み付けしてどれだけ似てるかの似てる度合いを表したいです
結果をperl観点で似てるかどうかは判断できますが、総合としての似てる度合いを表したいです。
要件定義がかなり曖昧ですが、似てるということを測定できる理論などの紹介であってもいいです。

あとは単語自体をカテゴリ分けしたいです。
例えば、ruby,perl,phpなどの単語が頻出すればcategory1、焼き鳥,餃子,寿司などの単語が頻出すればcategory2、などを自動でcategory生成と、さらにcategory振り分けをしたいです。
できればカテゴリの命名も自動でできると嬉しいです。これで言えば、category1はprograming languege、category2はfood、とか。
これらに関しては参考にする理論の名称が全く思い当たりません。手探りで実装すればいいのかもしれませんが、頻出名詞からの自動のカテゴリ生成とその振り分けのアルゴリズムというか理論があれば幸いです。

###試したこと
形態素解析、機械学習、ディープラーニング、機械学習に必要な数学、統計調査、などを検索して今回やりたいことに解決する方法を探りました。
rubyでngramの実装はしました。

###補足情報(言語/FW/ツール等のバージョンなど)
ruby
mecab
pythonやRのライブラリなどでも歓迎です