疑問点

自然言語処理の文章分類問題を考える際に、訓練データとテストデータを分けると思いますが、多くの場合固定長になりません。
分けずにやればめちゃくちゃ簡単ですが、確実にリーケージが発生するので少なくとも辞書を作成する前にはデータを分けておく必要があると思います。
みなさんはどのように可変長のインプットデータを分けていますか？

固定長なら、sklearnのtrain_test_splitですぐなので、
かんたんに思いつくところだとリストに変換して一番長いデータに合わせてなんかしらの文字を追加して固定長に仕立てる方法かなあと思っています。
これが効率的だというやり方があったら教えて欲しいです。

具体的には、

python
1text = [
2['aaa' 'bbb' 'cccc'],
3['xx'],
4['xxxx', 'bb', 'eeee', 'bbbb'], 
5]

のようなデータに対して、ラベルが与えられているとしてどのように処理を書くかお聞きしたいです。

ふんわりしていますが、疑問点あればお答えしますのでよろしくお願いします

行動規範の内容に同意します

回答3件

ベストアンサー

あまり文書の長さは関係ないのでは。

どんな手法を使うのかにもよります。One-Hot表現やBag of Words、n-gram、トピックモデルや分散表現だったり、そもそもLSTMで処理するとか。

教師なしの特徴抽出手法でまるごと変換してからtrain_test_split等で分けるというのが一つの方法論で、大抵それで十分です。

ある程度複雑な特徴抽出を行うので、その段階で微妙にleakageが起きる可能性がある、ということを嫌うのであれば、何も処理しない段階で学習データとテストデータに分け、学習データだけ用いてモデルを構築することも可能です。

投稿2018/08/29 17:50

編集2018/08/29 17:51

hayataka2049

総合スコア30933

hayata-yamamto

2018/08/30 00:35

ありがとうございます！確かにおっしゃる通りで、テキストをベクトル化してそれを分けるというのは、私もよくやる方法でした。ただ、一度立ち止まって考えてみたときに、テストデータにはあって、訓練データにはない単語が存在した場合、「例えば、辞書をつかってBoWする際に、そもそも新規のデータがきた際には知らないはずの単語を知っている状態は適切なのか」とふと思ってしまい、ありゃどうするのが適切だったっけと思ったという流れでした。このふわっとした質問で、この回答をいただけて助かりました！

hayataka2049

2018/08/30 01:45 編集

>テストデータにはあって、訓練データにはない単語訓練データにない単語なら、学習には意味のある影響はないのでかなりどうでも良いのではまた、よほどテストデータと訓練データの分割に偏りがない限り、そういう単語は相当の低頻度ですから、前処理で落としてから機械学習モデルに入れるかと思います。やっぱりどうでも良いような

行動規範の内容に同意します