共通の単語を持つ異なるデータセットについてtf-idf値を算出したい

１つのデータセットを分け方を変えて個々にtf値・idf値を算出し、単語ごとのtf-idf値を求めたいです。
sklearnのcountvectorizerとtfidfvectorizerを用いてそれぞれでtf値とidf値を求めるコードを書きました。

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.decomposition import TruncatedSVD
from sklearn.preprocessing import Normalizer

def tf(doc):
    vectorizer = CountVectorizer(token_pattern=u'(?u)\b\w+\b')
    tffeatures = vectorizer.fit_transform(doc)
    tfterms = vectorizer.get_feature_names()
    tf = vectorizer.fit_transform(doc)
    return tf, tffeatures, tfterms

def tfidf(alldocs):

    vectorizer = TfidfVectorizer(min_df=1, max_df=50, token_pattern=u'(?u)\b\w+\b')
    features = vectorizer.fit_transform(alldocs)
    idf = vectorizer._tfidf.idf_
    terms = vectorizer.get_feature_names()

    return idf, features, terms

def reduction(x, dim=10):

    '''
    dimensionality reduction using LSA
    '''
    lsa = TruncatedSVD()
    x = lsa.fit_transform(x)
    x = Normalizer(copy=False).fit_transform(x)

    return x

if __name__ == '__main__':
    alldocs = [' '.join(d) for d in alldocs]
#alldocsは1900件の分かち書きされた文章データの入れ子構造リストです。
    idf, features, terms = tfidf(docs_list)
    tf, tffeatures, tfterms = tf(clu0)
#clu0はalldocsの中でクラスタリングを行ったうちの1つのクラスタの単語リストです。
#300件ほどの文章を１つの文章として見立てています。

この語、単語ごとでtf-idf値を求める手法が分からず困っています。
また、このコードにおいてprint(tf)とすると

(0, 2018) 1
(1, 2680) 1
(2, 1928) 1
(3, 3391) 1
(4, 867) 1
(5, 396) 1
...

という出力になっており、tf値を求められている気がしません。
こちらの問題についてもどなたかご教授いただけると幸いです。

行動規範の内容に同意します

回答1件

自己解決

1900件の文章データと、クラスタに含まれる文章を１つの文章として見立てた６つの文章データを併せた1906件の文章データを入れ子構造のリスト化し、そのリストをalldocsとして計算することでidf値を近似し、各クラスタの特徴量を抽出しました。
そのご、max_dfを調整することで共通する特徴語を取り除き、クラスタの解釈を進めました。

投稿2019/12/06 05:25

manahy

総合スコア7