s に入るデータは、mecabによって分かち書きさえれた日本語の文章がリストではいっています。
なぜか、アウトプットの数をカウントするとずれます。
色々、試してやっいますが、少ない量だと差分がでないです。
何が原因がお気づきの方、ご教示頂けると大変助かります。
python
1 2from sklearn.feature_extraction.text import TfidfVectorizer 3vectorizer = TfidfVectorizer() 4X = vectorizer.fit_transform(s) 5data = X.data 6features = vectorizer.get_feature_names() 7output = [(data[i], features[i]) for i in range(len(data))] 8 9> data 10array([0.04610715, 0.05050163, 0.04156941, ..., 0.04623194, 0.04623194, 11 0.04623194]) 12> len(data) 132012 14> len(features) 151088
回答3件
あなたの回答
tips
プレビュー