gensimのlsimodelについて。
新聞記事を名詞と用言だけのリストにしてgensimのlsimodelで次元圧縮(トピック数100)にした時、lsiコーパスのノルム(二乗和のルート)が0〜1の値に収まったのですが、それは仕様なのでしょうか?
記事の長さと記事の大きさの関係を調べてみたくて、横軸記事の長さ、縦軸記事の大きさ(lsimodelで100次元にした文書ベクトルのノルム)で散布図作ってみた結果です。↓↓↓
なんで1以上にならないのかな?と思いまして。
あなたの回答
tips
プレビュー