疑問点
自然言語処理の文章分類問題を考える際に、訓練データとテストデータを分けると思いますが、多くの場合固定長になりません。
分けずにやればめちゃくちゃ簡単ですが、確実にリーケージが発生するので少なくとも辞書を作成する前にはデータを分けておく必要があると思います。
みなさんはどのように可変長のインプットデータを分けていますか?
固定長なら、sklearnのtrain_test_splitですぐなので、
かんたんに思いつくところだとリストに変換して一番長いデータに合わせてなんかしらの文字を追加して固定長に仕立てる方法かなあと思っています。
これが効率的だというやり方があったら教えて欲しいです。
具体的には、
python
1text = [ 2['aaa' 'bbb' 'cccc'], 3['xx'], 4['xxxx', 'bb', 'eeee', 'bbbb'], 5]
のようなデータに対して、ラベルが与えられているとしてどのように処理を書くかお聞きしたいです。
ふんわりしていますが、疑問点あればお答えしますのでよろしくお願いします
回答3件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2018/08/30 00:35
2018/08/30 01:45 編集