すでにカテゴリ分けされた文章が2000程あります。
それらはそれぞれ1〜2個のカテゴリを持っています。
カテゴリごとに特徴的な単語を導き出し、
新たに文章を与えたときに、カテゴリを予想するシステムをpythonで作りたいと思っています。
色々調べる中で、文章を単語ごとに分け、(分かち書き?)その出現率から、特徴的なワードを抽出する方法を知りました。
また、全文章中に共通して多く出現するワードの除去も必要なこともわかりました。
現状、カテゴリと文章を対応させた形でデータベースに入れるところまで来ました。
単語ごとに区切ることも可能だと思います。
問題がそのあとで、
どうやって"共通して多く出現する単語"を抽出するのでしょうか?
全文章の単語の寄せ集めから、被った上位何%を削除するとかですか?
何を検索すればいいのかもわからずに手も足も出ない状態です…
何卒ご助力頂だけますと幸いです…。
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。