word2vecの演算結果について適当な言葉と類似度比較をするとほとんどすべての語が類似度0.8〜0.9に属してしまいます。
学習データは分かち書きをした200文程度の文章で合計語彙は5000〜10000語、設定は
text8corpusで読み込んだのち size=300〜500 もしくは5000程度で試しましたが結果は変わりませんでした。また実行のたび結果が非常に大きく変わります。(どの単語も類似度が高いためtopnが僅差であるためと考えます。)
この結果はおかしいと思うのですが明確な原因がわからずいます。心当たりがある方がいらっしゃいましたらお願いいたします。ソースコードがはれずすいません
追記
言葉足らずですいません。gensimを使用いたしました。200分を分かち書きして一つのファイルしています。各句読点まででいうと通常の文章と変わりないくらいの長さ、全体だと50000語くらいでしょうか。。。
あなたの回答
tips
プレビュー