##初めに
現在、テキストを形態素解析して、その単語のtf値とtfidf値を算出したいです。
##現在できていること
CountVectorizerで単語の出現頻度をだすことはできました。
それを元に、TfidfTransformerで正規化したtfidf値を求めることはできました。
デフォルトでは計算してくれる値はtfidf値らしいのですが、どうしたらtf値を計算することができるでしょうか。
##現在のプログラム
python
1import codecs 2import numpy 3import pandas as pd 4import sklearn 5from sklearn.feature_extraction.text import TfidfVectorizer 6from sklearn.feature_extraction.text import CountVectorizer 7from sklearn.feature_extraction.text import TfidfTransformer 8 9corpus = codecs.open('morphology.txt', 'r').read().splitlines() 10vectorizer = CountVectorizer(token_pattern=u'(?u)\b\w+\b') 11tf = vectorizer.fit_transform(corpus) 12transformer = TfidfTransformer() 13tfidf = transformer.fit_transform(tf)
##実行結果
これでtfidf.toarray()で、単語のtfidf値を出力することはできました。
回答1件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。