実行環境
- Python 3.6.5
- Windows7
- Jupyter notebook
26人の男と1人の少女 (前回の質問) をロシア語で読むためのプログラムを引き続き書いています。
ロシア語自然言語処理の世界 を参考に、ロシア語の名詞や形容詞、動詞などの活用形をレマ化して、最も登場した単語とその回数をcsvファイルに落とすところまでできました。
レマ化一例
моя, моё, моиはすべてмойと認識させる。
Мой: 所有代名詞。意味は「私の」。英語ではmyに相当。
コードを動かしてわかったトリビア
『26人の男と1人の少女』は4,326の単語で構成され (Word 文字カウント機能調べ)、その内10回以上出てくるのは65単語となっています。
登場回数トップの「and」に相当する「и」だけで238回分を占めているので、この65単語をしっかり覚えればなかなかいい感じにこの小説が読めるのではとわくわくしています(*≧∀≦)
現在のコードと出力結果
現在のコード
python
1from nltk import FreqDist 2import pymorphy2 3import csv 4analyzer = pymorphy2.MorphAnalyzer() 5 6lemma_list = [] 7for text in texts: 8 lemma = analyzer.parse(text)[0].normal_form 9 lemma_list.append(lemma) 10freqdist = FreqDist(lemma_list) 11freqdist_list = freqdist.most_common(900) 12 13with open('26and1.csv', 'w', encoding = 'utf-8-sig') as file: 14 for n in range(0, len(freqdist_list)): 15 writer = csv.writer(file, lineterminator = '\n') 16 writer.writerow([freqdist_list[n]])
よろしくお願いしますm(_)m
回答1件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2018/09/23 03:15