回答編集履歴

1

追記

2018/05/22 10:01

投稿

hayataka2049
hayataka2049

スコア30933

test CHANGED
@@ -23,3 +23,17 @@
23
23
 
24
24
 
25
25
  word2vec, doc2vec, DNN(LSTM等)による自然言語処理等はまた異なったアプローチで処理しています。
26
+
27
+
28
+
29
+ ### 追記
30
+
31
+ なんか、回答書いてから言いたいことがわかったような気が・・・。
32
+
33
+ one-hot表現にしないで、1次元の数値で、たとえば100000単語あったら0~99999で表現しようということですか。
34
+
35
+ いろいろな欠点があります。
36
+
37
+ - 単語はともかく、文書は1次元では表現できない。BoWならone-hot表現の加算とみなせます。
38
+
39
+ - これも同じことですが、「似ている単語」と「そうでない」単語をどう区別しましょうか。数字が近いと似ている単語という扱いになってしまいそうです。one-hot表現であれば、すべて等しく似ている(似ていない)単語と解釈できます。分散表現系であれば、ベクトル空間内の距離で表せます。