回答編集履歴
1
追記
test
CHANGED
@@ -23,3 +23,17 @@
|
|
23
23
|
|
24
24
|
|
25
25
|
word2vec, doc2vec, DNN(LSTM等)による自然言語処理等はまた異なったアプローチで処理しています。
|
26
|
+
|
27
|
+
|
28
|
+
|
29
|
+
### 追記
|
30
|
+
|
31
|
+
なんか、回答書いてから言いたいことがわかったような気が・・・。
|
32
|
+
|
33
|
+
one-hot表現にしないで、1次元の数値で、たとえば100000単語あったら0~99999で表現しようということですか。
|
34
|
+
|
35
|
+
いろいろな欠点があります。
|
36
|
+
|
37
|
+
- 単語はともかく、文書は1次元では表現できない。BoWならone-hot表現の加算とみなせます。
|
38
|
+
|
39
|
+
- これも同じことですが、「似ている単語」と「そうでない」単語をどう区別しましょうか。数字が近いと似ている単語という扱いになってしまいそうです。one-hot表現であれば、すべて等しく似ている(似ていない)単語と解釈できます。分散表現系であれば、ベクトル空間内の距離で表せます。
|