countvectorizerを用いてツイートをベクトル化したとしても、AとBでは出現する単語が異なり、生成されるベクトルの長さも異なり、エラーが出ると思います。
その通りで、ベクトルを作るための単語の集合は、AとBで共通にしないといけません。
AとBを含む全体をコーパスと見てベクトルを作るか、もっとずっと巨大なコーパスからボキャブラリ(単語辞書)を作るかします。
後者の場合はcountvectorizerを使うよりも自分で作った方がいいでしょう。
ポジネガの極性単語辞書のような外部知識を素性として入れるのであれば、1000件でもとりあえずやってみればいいと思います。
外部知識を入れないでやろうとすると、いかにも少ないように感じます。
1000件という数が、すべてポジかネガの極性が付いているものを集めてその数なら、一回システムを作ってみたらいいと思います。システムを作って性能評価ができるようになってからデータを増やしていく、という順番で進めればいいでしょう。
1000件という数がとりあえず集めたツイートの数で、そこからラベルを振っていくのであれば本当に少ないと思います。その場合はポジでもネガでもない中立が混じってくるはずです。こちらの場合は、中立のデータがどのぐらいあるか、データを実際にながめてからどうするか考えるでしょうね。
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。