tfidfをかけるリストの選び方が分からない

前提・実現したいこと

複数の文章データをクラスタリングし(済）、得られたクラスタごとの特徴をtfidf値から抽出し、クラスタの説明をしたい。

できていること
日本語で書かれた文章(ある賞についてのコメントデータ1000件ほど)をmecabを用いて分かち書きしたのち、ストップワードをかけて処理しました。
その後、Doc2vecを用いて、複数の文章についてのモデルを作成しました。
このモデルから各文章ベクトルを呼び出し、kmeans法によってクラスタリングを行いました。
前提として、文章データはクラスタ分けされたとはいえ、同じ話題について書かれていますのでクラスタ間での単語の重複は多めです。

発生している問題

この後、tfidf法により各クラスタの特徴を説明したいのですが、tfidfに読み込ませるデータをどのように決めればいいのかが分かりません。
具体的に言うと、現在得られている文章データは以下の形式になっています。
文章データ＝('単語1','単語2'...)　#訳10～30語です。
クラスタ１＝[[文章データ1],[文章データ２]]
クラスタ２＝[[文章データ3],[文章データ4],[文章データ5]]
クラスタ３＝[[文章データ6],[文章データ7]]

クラスタ１_str＝(文章データ1,文章データ2)#クラスタ1に属する文章をまとめて１つの文章のようにみなしています)

各クラスタの特性を差別化するためにはtfidfにかけるデータセットとして
[[クラスタ1_str],[クラスタ2_str],[クラスタ3_str]]
とすべきなのでしょうか？
それとも
クラスタ１・２・３をそれぞれtfidfに欠けるべきなのでしょうか。

tfidfについての文献はいろいろ読んでみたのですが、どうにも混乱してしまい、訳が分からなくなってしまいました。。。

非常に分かりにくい説明だとは思うのですが、有識者の方がいらっしゃいましたらご教授いただけると本当に助かります。
よろしくお願いいたします。

dameo

2019/11/18 06:06

「tfidfにかける」の意味が分かりません。 DFは文章の集合をどこまでにするかで決まるし、TFは文章を決めれば決まるのでは？何を求めたいかはやりたいことで決まるので、それはあなた以外に決められる人はいません。クラスタの特性を説明するのはあなたであり、その方法はあなたしか決められないということになります。印象だけで言うと、クラスタごとにtfidf値が高い単語を上位いくつか出せば特徴的な単語が出ると思いますけど... そもそもそんなことを聞くのだとすると、どうやってクラスタに分けたの？というところが疑問になります。というわけで、お答えした通り、あなたが決めるしかないのでは？