scikit-learnのTfidfVectorizerを利用しています。
下記、X.dataのアウトプットがよくわかっていません。最初は、tfidfの数値だと思っていたのですが、tfだけのような気がしてきました。出力結果をみると、どうもidfが加味されていないような気がします。
どなたか、お気づきの点ありましたらご教示いただけませんでしょうか?もしくは、idfのチューニング方法をご存知でしたらちょっとしたtipsでもいいのでご共有頂けますと助かります。
python
1from sklearn.feature_extraction.text import TfidfVectorizer 2vectorizer = TfidfVectorizer() 3X = vectorizer.fit_transform(nouns) 4data = X.data 5features = vectorizer.get_feature_names()
あなたの回答
tips
プレビュー