前提・実現したいこと
複数の文章データをクラスタリングし(済)、得られたクラスタごとの特徴をtfidf値から抽出し、クラスタの説明をしたい。
できていること
日本語で書かれた文章(ある賞についてのコメントデータ1000件ほど)をmecabを用いて分かち書きしたのち、ストップワードをかけて処理しました。
その後、Doc2vecを用いて、複数の文章についてのモデルを作成しました。
このモデルから各文章ベクトルを呼び出し、kmeans法によってクラスタリングを行いました。
前提として、文章データはクラスタ分けされたとはいえ、同じ話題について書かれていますのでクラスタ間での単語の重複は多めです。
発生している問題
この後、tfidf法により各クラスタの特徴を説明したいのですが、tfidfに読み込ませるデータをどのように決めればいいのかが分かりません。
具体的に言うと、現在得られている文章データは以下の形式になっています。
文章データ=('単語1','単語2'...) #訳10~30語です。
クラスタ1=[[文章データ1],[文章データ2]]
クラスタ2=[[文章データ3],[文章データ4],[文章データ5]]
クラスタ3=[[文章データ6],[文章データ7]]
クラスタ1_str=(文章データ1,文章データ2)#クラスタ1に属する文章をまとめて1つの文章のようにみなしています)
各クラスタの特性を差別化するためにはtfidfにかけるデータセットとして
[[クラスタ1_str],[クラスタ2_str],[クラスタ3_str]]
とすべきなのでしょうか?
それとも
クラスタ1・2・3をそれぞれtfidfに欠けるべきなのでしょうか。
tfidfについての文献はいろいろ読んでみたのですが、どうにも混乱してしまい、訳が分からなくなってしまいました。。。
非常に分かりにくい説明だとは思うのですが、有識者の方がいらっしゃいましたらご教授いただけると本当に助かります。
よろしくお願いいたします。
回答1件
あなたの回答
tips
プレビュー