onehot表現などの文章の表し方について

Question

自然言語処理などをする際に
onehot表現などで文章を表現することがあると思います

様々な表現方法があると思うのですが
トークン化したときに、トークンすべてを数え上げて、
数字を割り当てる方法っていうのは一般的には使われないのですか？
この方法をみたことがなくて、気になりました
また使われないとしたら、その理由を教えていただければ
ありがたいです。

使われるとして、名称があれば教えてください
また、利点などもあれば教えてほしいです

例えば
「リンゴください」
の場合
リンゴ: 1 ください:2
のような感じです

Accepted Answer

例だけではなんとも言えませんが、こんなイメージですか？

- 「リンゴください。あとミカンもください」
リンゴ：1, ください：2, 。：3あと：4

---

質問文の手法は恐らくBag of Wordsのインデックスを作る作業に該当すると思われます。
これだけでは特に文書の特徴を反映する訳ではないので、インデックスに基いて単語の出現頻度でベクトルを作るのがBag of Words。
「単語」という単位で見ないで、たとえば2単語つながったもの（リンゴ-ください, ください-。等）を数え上げるのがbigram, 一般化してn個の単語がつながったものを数え上げるのがn-gram。
それを特定の品詞に絞ってみたり、品調ラベルを使ってみたり、似たような手法は色々あります。いずれも何らかの要素列に変換し、インデックスを作って数え上げるという点ではBag of Wordsと共通しています。

word2vec, doc2vec, DNN(LSTM等)による自然言語処理等はまた異なったアプローチで処理しています。

### 追記
なんか、回答書いてから言いたいことがわかったような気が・・・。
one-hot表現にしないで、1次元の数値で、たとえば100000単語あったら0～99999で表現しようということですか。
いろいろな欠点があります。
- 単語はともかく、文書は1次元では表現できない。BoWならone-hot表現の加算とみなせます。
- これも同じことですが、「似ている単語」と「そうでない」単語をどう区別しましょうか。数字が近いと似ている単語という扱いになってしまいそうです。one-hot表現であれば、すべて等しく似ている（似ていない）単語と解釈できます。分散表現系であれば、ベクトル空間内の距離で表せます。

Answer

http://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.CountVectorizer.html
https://qiita.com/asatohan/items/7a247eb533a5adba9e87

http://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.html
単語の繋がりまで考慮した処理までも一般的です。