txtファイル内の単語をカウントするプログラム

前提・実現したいこと

テキストファイルから指定した品詞を頻出順に抽出したいです.
プログラムの条件分のところで以下のエラーが出たのですが対処法がわかりません.
ご指摘いただきたいです.

なお, 参考にしたサイトでは名詞のみでしたが, 対象追加として動詞, 形容詞, 形容動詞も同時に処理したいと思っています.

発生している問題・エラーメッセージ

Traceback (most recent call last):
  File "count.py", line 21, in <module>
    for item in items
  File "count.py", line 23, in <listcomp>
    item[1] == '名詞' or item[2] == '動詞' or item[3] == '形容詞' or item[4] == '形容動詞' and item[5] == '一般')]
IndexError: list index out of range

該当のソースコード

Python
1import MeCab
2import sys
3import re
4from collections import Counter
5
6# ファイル読み込み
7cmd, infile = sys.argv
8with open(infile) as f:
9    data = f.read()
10
11# パース
12mecab = MeCab.Tagger()
13parse = mecab.parse(data)
14lines = parse.split('\n')
15items = (re.split('[\t,]', line) for line in lines)
16
17
18
19# 名詞をリストに格納
20words = [item[0]
21         for item in items
22         if (item[0] not in ('EOS', '', 't', 'ー') and
23             item[1] == '名詞' or item[2] == '動詞' or item[3] == '形容詞' or item[4] == '形容動詞' and item[5] == '一般')]
24
25# 頻度順に出力
26counter = Counter(words)
27for word, count in counter.most_common():
28    print("{word}: {count}")
29

試したこと

orにて処理を試みたがうまくいきませんでした.

補足情報（FW/ツールのバージョンなど）

参考文献
【Python3】MeCabでテキストファイルから名詞を頻出順に抽出
https://qiita.com/reima21/items/cb73aeb569af48877261

can110

2018/12/03 02:15

現象が再現する文字列(data)の例を提示ください。またその文字列で得られる理想の結果も提示ください。

rrrrrrrry

2018/12/03 02:19

自分が読み込んでいるファイルは単語ごとに分けられているかつそれぞれ改行されています. 例えば, りんご\\みかん\\りんご\\みかん\\ぶどうというファイルを読み込んだなら, りんご:3\\みかん:2\\ぶどう:1のようにしたいと思っています.

can110

2018/12/03 02:22

追記ありがとうございます。つまり「りんご(改行)みかん(改行)りんご(改行)みかん(改行)ぶどう」というファイルにてエラーが再現するということでしょうか？

rrrrrrrry

2018/12/03 02:23

そうです.

can110

2018/12/03 02:31

エラーが再現できません。wordsが空のまま正常終了します。「items = (re.split」の次行に「print(list(items))」で表示される結果を追記くださると回答得られやすいと思います。

rrrrrrrry

2018/12/03 02:40

[['りん', '副詞', '助詞類接続', '*', '*', '*', '*', 'りん', 'リン', 'リン'], ['ご', '接頭詞', '名詞接続', '*', '*', '*', '*', 'ご', 'ゴ', 'ゴ'], ['みかん', '名詞', '一般', '*', '*', '*', '*', 'みかん', 'ミカン', 'ミカン'], ['りんご', '名詞', '一般', '*', '*', '*', '*', 'りんご', 'リンゴ', 'リンゴ'], ['みかん', '名詞', '一般', '*', '*', '*', '*', 'みかん', 'ミカン', 'ミカン'], ['りんご', '名詞', '一般', '*', '*', '*', '*', 'りんご', 'リンゴ', 'リンゴ'], ['ぶどう', '名詞', '一般', '*', '*', '*', '*', 'ぶどう', 'ブドウ', 'ブドー'], ['EOS'], ['']]のような結果です.

行動規範の内容に同意します

回答2件

['EOS']時にitem[2]にアクセスして提示エラーが発生しています。

Python
1    if (item[0] not in ('EOS', '', 't', 'ー') and 
2        item[1] == '名詞' or item[2] == '動詞' or item[3] == '形容詞' or item[4] == '形容動詞' and item[5] == '一般'):

において、item[0] not in ('EOS', '', 't', 'ー') and item[1] == '名詞'部分は偽と判定されますが、orで続くため、それに続くitem[2] == ～も解釈されています。

以下のように演算順序を正すとエラー発生しなくなります。

Python
1         if (item[0] not in ('EOS', '', 't', 'ー') and
2             (item[1] == '名詞' or item[2] == '動詞' or item[3] == '形容詞' or item[4] == '形容動詞' and item[5] == '一般'))]

この条件判定部分、複雑になりデバッグしにくくなっているので、通常のforループに変えたほうがよいかと思います。

ちなみに最後のprint("{word}: {count}")も意図した結果にならないはずなので適切に修正が必要です。

投稿2018/12/03 03:19

can110

総合スコア38266

ベストアンサー

itemsの要素数が、あなたが期待しているより小さい行があると言う事なので、データを確認しましょう。

#補足を見ての追記
条件部分がおかしかったです。データを見ると、おそらくこれが意図するところでしょう。

Python
1# 名詞をリストに格納
2words = [item[0]
3         for item in items
4         if  item[0] not in ('EOS', '', 't', 'ー') and
5             item[1] in ('名詞', '動詞','形容詞','形容動詞') and 
6             item[2] == '一般']