Python 機械学習について

Pythonを勉強中の者です。
PythonでTweetの分類（POS,NEG）をしたいと考えています。

例えば、適当なツイート1000件(A)にたいして、ラベルをふり学習器を作ったとして、
その学習器を使って異なるツイート1000件(B)のラベルを予測することはで可能なのでしょうか。

countvectorizerを用いてツイートをベクトル化したとしても、AとBでは出現する単語が異なり、生成されるベクトルの長さも異なり、エラーが出ると思います。

解決方法があれば教え下さい。

行動規範の内容に同意します

回答2件

countvectorizerを用いてツイートをベクトル化したとしても、AとBでは出現する単語が異なり、生成されるベクトルの長さも異なり、エラーが出ると思います。

その通りで、ベクトルを作るための単語の集合は、AとBで共通にしないといけません。
AとBを含む全体をコーパスと見てベクトルを作るか、もっとずっと巨大なコーパスからボキャブラリ(単語辞書）を作るかします。
後者の場合はcountvectorizerを使うよりも自分で作った方がいいでしょう。

ポジネガの極性単語辞書のような外部知識を素性として入れるのであれば、1000件でもとりあえずやってみればいいと思います。

外部知識を入れないでやろうとすると、いかにも少ないように感じます。
1000件という数が、すべてポジかネガの極性が付いているものを集めてその数なら、一回システムを作ってみたらいいと思います。システムを作って性能評価ができるようになってからデータを増やしていく、という順番で進めればいいでしょう。
1000件という数がとりあえず集めたツイートの数で、そこからラベルを振っていくのであれば本当に少ないと思います。その場合はポジでもネガでもない中立が混じってくるはずです。こちらの場合は、中立のデータがどのぐらいあるか、データを実際にながめてからどうするか考えるでしょうね。

投稿2017/07/20 00:25