私はO'REILLY ゼロから作るDeeplearning2自然言語処理編の4章までを学び、そのアウトプットとしてPythonでメールの自動感情分類システムを構築しようと考えました。プログラムの手順として
①今まで手元に届いたメールを集め、人手で3つの感情ラベル(positive, neutral, negative)を付与する。
②word2vecを用いて、メール全文のコンテキストとターゲットから単語ベクトル(単語の分散表現)を取得し、それをもとに各メールをベクトルに変換する。
③②でベクトル化されたメールを入力データとし、感情ラベルを正解ラベルとして、それらが対応するようなパラメータをニューラルネットワークで学習させる。
④テストデータ(学習データとは別に作っておく)を通し、正しい感情が対応して出力されるか評価する。
という流れを考えています。しかしこの③の段階で、ニューラルネットワークの入力層にメール本文の単語ベクトル列が入るとすると、その大きさは学習させるメール本文の長さによって変わるので、重みの形状が変わってしまいうまく更新できないのではないかと思いました。
実際DeepLearning無印に載っていたMNISTによる手書き数字認識では、入力層のサイズは画像のピクセルサイズ(28×28=784)という決まった値でした。
この場合、入力層のサイズが入力データによって変わってもうまく学習できる方法があるのでしょうか?あるいは入力層のサイズは定数にすべきなのでしょうか?
また未熟者ゆえ、ここに書いた中でなにか勘違いしている内容があるかもしれません。その点もありましたら、ご指摘いただけると助かります。
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。