nltkで形態素解析をしています
その際に文章中によく含まれる単語に分布をみるplotと
頻出単語をリストにするkeys()を用いています
plotの分布とkeysで出力したものは同じものが上位にくると
思っているのですが
異なる結果が表示されます
異なる結果がでてもいいものなのでしょうか
ちなみに、あまりこのグラフの見方がわかっていません
左側のほうが頻度の高い単語のようですが
累積カウントだとカウント数が一番すくないと思ってしまいます
どのように見ればよいのかもおしえていただけるとありがたいです
python
1#docは文章 2 3symbols = ["'", '"', '`', '.', ',', '-', '!', '?', ':', ';', '(', ')'] 4stopwords = nltk.corpus.stopwords.words('english') 5tokens = word_tokenize(str(doc)) 6text = nltk.Text(tokens) 7ff = nltk.FreqDist(w.lower() for w in text if w.lower() not in stopwords + symbols) 8print(list(ff.keys())[:100]) 9ff.plot(100, cumulative = True)
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。