ベストアンサーはつけましたが、その他アイデアや情報等ありましたら回答お宜しくお願いします
aからzまでの文字列をmodel_1からmodel_Nまでのルールに基づいて分類した結果を
下記のようにあらわした時、各分類手法の類似度を求める方法ってあるでしょうか?
各子集合の類似度を、総当たり&Jaccard指数を用いて求めて合計が最大のものを類似度として計算していましたが、
子集合の数が異なった場合にうまくいかなかったり、子集合数や分類数が多くなった場合の計算量が多いので
他に何かいい方法が無いか検討しています。
基本的にPythonとRで分析することが多いので、サンプル、論文等やツールの紹介などしていただけたら幸いです。
Hadoop、Hivemall、Jubatusなども使うことが多いのでそちらのサンプルでもかまいません。
model_1 = [["a","b","c","d"],["e","f","g","h","i"],["j","k","l"],["m","n","o","p","q","r","s","t","u"],["v","w","x","y","z"]]
model_2 = [["e","f","g","h","i"],["j","k","l"],["b","c","d"],["m","n","o","p","q","r","s","t","u"],["a","v","w","x","y","z"]]
・
・
model_N = [["e","f","g","h","i"],["j","k","l"],["b","c","d"],["m","n","o"],["p"],["q","r","s","t","u"],["a"],["v","w"],["x","y","z"]]
回答1件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2015/08/18 09:55