##初めに
現在、テキストを形態素解析し、得られた単語のtf値を算出しました。
その出力を、どのtf値がどの単語に当てはまるのか、出力を見やすくしようとしています。
##現在のコード
python
1import codecs 2import numpy 3from sklearn.feature_extraction.text import CountVectorizer 4 5corpus = codecs.open('morphology.txt', 'r').read().splitlines() 6vectorizer = CountVectorizer(token_pattern=u'(?u)\b\w+\b') 7transformer = TfidfTransformer() 8tf = vectorizer.fit_transform(corpus) 9numpy.set_printoptions(numpy.inf) 10print(tf.toarray()) 11print(tf.shape)
##実行結果
[[ 16 30 3
...(中略)...
1 54 5]]
(1, 10309)
##結果の解説
テキストを形態素解析した結果のtxtファイルを読み込み、その単語たちのtf値を計算して、その値を全て出力しています。
また、最後の(1, 10309)は、テキストが1つ、出現した単語の数が10309でした。
##理想の出力
※イメージ1
16 りんご 30 オレンジ 3 ぶどう
のような、各tf値に対する単語も対応させて出力させたいです。
※イメージ2
[[ 16 30 3
...(中略)...
1 54 5]]
[[ りんご オレンジ ぶどう
...(中略)...
いちご ばなな とまと]]
のような、tf値と単語の出力自体は分かれているが、tf値の出力の順番に、その単語を出力する。(16がりんご、30がオレンジ)
##ご教授よろしくお願いします。
回答1件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。