###前提・実現したいこと
tf値を用いてツイッターの発言を抽出し特徴語(名詞)を抽出したのですが
@やその他 小文字のぶつ切り(abcd1234がa,b,c,d,1,2,3,4になっていたり)特徴語ではないものも抽出されます。
これをどうやって自分が取得す
る特徴語の中から排除するかを考えています。
ずっと悩んでいるのですが、アイディアをください。 論文のURLでも構いません
理想としては ゲームの情報やスポーツの情報などのTF値が大きく抽出され、上記のような特徴語ではないもののTF値が小さくなり、最終的にTF値の大きさで排除or取得の判定をしたいと考えています。
名詞辞書などを用いて名詞辞書の中にある語はTFを大きくするなど考えましたが、新作のゲームや、アニメの登場人物などは辞書に含まれておらず頓挫しました。
###発生している問題・エラーメッセージ
なし
エラーメッセージ
なし
###該当のソースコード
なし
###試したこと
つぶやきを抽出する過程で、@などの語を含むつぶやきがある場合 それはメールアドレスの可能性が高い・・・と考えたのですが例外も当然存在してしまいます。自分は学部生であまり賢くありません。
###補足情報(言語/FW/ツール等のバージョンなど)
より詳細な情報
言語はpython 2系
あなたの回答
tips
プレビュー