##初めに
現在、テキストをMecabで形態素解析を行い、単語の頻出度を求めたいため、CountVectoizerを使い、tf値を出しています。
##使用環境
windows10
Anaconda 3
python 3
##コード
python
1import codecs 2from sklearn.feature_extraction.text import CountVectorizer 3 4corpus = codecs.open('morphology.txt', 'r').read().splitlines() 5vectorizer = CountVectorizer(token_pattern=u'(?u)\b\w+\b') 6transformer = TfidfTransformer() 7tf = vectorizer.fit_transform(corpus) 8print(tf.toarray()) 9print(tf.shape)
##実行結果
[[16 30 3 ... 1 54 5]]
(1, 10309)
##結果から
データの単語数は、もともと200000近くありました。
そこから、かぶりなどもあり、単語の種類は10309個あることがわかりました。
1つめの単語から、順に頻出度が16,30,3とでていますが、そこからラスト3つまでの出力が省略されています。
これを全て出力させるに、1つ試したことがありますが、結果はダメでした。
##試したこと
出力結果を表示させるのではなく、txtファイルに書き込ませたら、省略されずに全て表示されるのではないかと、考えました。
しかし、txtファイルの結果は、上記の出力結果と同じでした。
##最後に
どうすれば、省略されずにすべてのtf値を見ることができるでしょうか。
ご教授お願い致します。
また、現在の出力はtf値だけですが、
理想の出力は、
tf値の高い順に出力され、その単語も出力するような結果にしたいのですが、
どうすればよいでしょうか。
回答1件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。