前提・実現したいこと
テキストファイルから指定した品詞を頻出順に抽出したいです.
プログラムの条件分のところで以下のエラーが出たのですが対処法がわかりません.
ご指摘いただきたいです.
なお, 参考にしたサイトでは名詞のみでしたが, 対象追加として動詞, 形容詞, 形容動詞も同時に処理したいと思っています.
発生している問題・エラーメッセージ
Traceback (most recent call last):
File "count.py", line 21, in <module>
for item in items
File "count.py", line 23, in <listcomp>
item[1] == '名詞' or item[2] == '動詞' or item[3] == '形容詞' or item[4] == '形容動詞' and item[5] == '一般')]
IndexError: list index out of range
該当のソースコード
import MeCab
import sys
import re
from collections import Counter
# ファイル読み込み
cmd, infile = sys.argv
with open(infile) as f:
data = f.read()
# パース
mecab = MeCab.Tagger()
parse = mecab.parse(data)
lines = parse.split('\n')
items = (re.split('[\t,]', line) for line in lines)
# 名詞をリストに格納
words = [item[0]
for item in items
if (item[0] not in ('EOS', '', 't', 'ー') and
item[1] == '名詞' or item[2] == '動詞' or item[3] == '形容詞' or item[4] == '形容動詞' and item[5] == '一般')]
# 頻度順に出力
counter = Counter(words)
for word, count in counter.most_common():
print("{word}: {count}")
試したこと
orにて処理を試みたがうまくいきませんでした.
補足情報(FW/ツールのバージョンなど)
参考文献
【Python3】MeCabでテキストファイルから名詞を頻出順に抽出
https://qiita.com/reima21/items/cb73aeb569af48877261
-
気になる質問をクリップする
クリップした質問は、後からいつでもマイページで確認できます。
またクリップした質問に回答があった際、通知やメールを受け取ることができます。
クリップを取り消します
-
良い質問の評価を上げる
以下のような質問は評価を上げましょう
- 質問内容が明確
- 自分も答えを知りたい
- 質問者以外のユーザにも役立つ
評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。
質問の評価を上げたことを取り消します
-
評価を下げられる数の上限に達しました
評価を下げることができません
- 1日5回まで評価を下げられます
- 1日に1ユーザに対して2回まで評価を下げられます
質問の評価を下げる
teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。
- プログラミングに関係のない質問
- やってほしいことだけを記載した丸投げの質問
- 問題・課題が含まれていない質問
- 意図的に内容が抹消された質問
- 過去に投稿した質問と同じ内容の質問
- 広告と受け取られるような投稿
評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。
質問の評価を下げたことを取り消します
この機能は開放されていません
評価を下げる条件を満たしてません
質問の評価を下げる機能の利用条件
この機能を利用するためには、以下の事項を行う必要があります。
- 質問回答など一定の行動
-
メールアドレスの認証
メールアドレスの認証
-
質問評価に関するヘルプページの閲覧
質問評価に関するヘルプページの閲覧
checkベストアンサー
+1
items
の要素数が、あなたが期待しているより小さい行があると言う事なので、データを確認しましょう。
補足を見ての追記
条件部分がおかしかったです。データを見ると、おそらくこれが意図するところでしょう。
# 名詞をリストに格納
words = [item[0]
for item in items
if item[0] not in ('EOS', '', 't', 'ー') and
item[1] in ('名詞', '動詞','形容詞','形容動詞') and
item[2] == '一般']
あと、ここも、f
が抜けてます。
print(f"{word}: {count}")
投稿
-
回答の評価を上げる
以下のような回答は評価を上げましょう
- 正しい回答
- わかりやすい回答
- ためになる回答
評価が高い回答ほどページの上位に表示されます。
-
回答の評価を下げる
下記のような回答は推奨されていません。
- 間違っている回答
- 質問の回答になっていない投稿
- スパムや攻撃的な表現を用いた投稿
評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。
+1
['EOS']
時にitem[2]
にアクセスして提示エラーが発生しています。
if (item[0] not in ('EOS', '', 't', 'ー') and
item[1] == '名詞' or item[2] == '動詞' or item[3] == '形容詞' or item[4] == '形容動詞' and item[5] == '一般'):
において、item[0] not in ('EOS', '', 't', 'ー') and item[1] == '名詞'
部分は偽と判定されますが、or
で続くため、それに続くitem[2] == ~
も解釈されています。
以下のように演算順序を正すとエラー発生しなくなります。
if (item[0] not in ('EOS', '', 't', 'ー') and
(item[1] == '名詞' or item[2] == '動詞' or item[3] == '形容詞' or item[4] == '形容動詞' and item[5] == '一般'))]
この条件判定部分、複雑になりデバッグしにくくなっているので、通常のforループに変えたほうがよいかと思います。
ちなみに最後のprint("{word}: {count}")
も意図した結果にならないはずなので適切に修正が必要です。
投稿
-
回答の評価を上げる
以下のような回答は評価を上げましょう
- 正しい回答
- わかりやすい回答
- ためになる回答
評価が高い回答ほどページの上位に表示されます。
-
回答の評価を下げる
下記のような回答は推奨されていません。
- 間違っている回答
- 質問の回答になっていない投稿
- スパムや攻撃的な表現を用いた投稿
評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。
15分調べてもわからないことは、teratailで質問しよう!
- ただいまの回答率 88.32%
- 質問をまとめることで、思考を整理して素早く解決
- テンプレート機能で、簡単に質問をまとめられる
質問への追記・修正、ベストアンサー選択の依頼
can110
2018/12/03 11:15
現象が再現する文字列(data)の例を提示ください。またその文字列で得られる理想の結果も提示ください。
rrrrrrrry
2018/12/03 11:19
自分が読み込んでいるファイルは単語ごとに分けられているかつそれぞれ改行されています. 例えば, りんご\\みかん\\りんご\\みかん\\ぶどうというファイルを読み込んだなら, りんご:3\\みかん:2\\ぶどう:1のようにしたいと思っています.
can110
2018/12/03 11:22
追記ありがとうございます。つまり「りんご(改行)みかん(改行)りんご(改行)みかん(改行)ぶどう」というファイルにてエラーが再現するということでしょうか?
rrrrrrrry
2018/12/03 11:23
そうです.
can110
2018/12/03 11:31
エラーが再現できません。wordsが空のまま正常終了します。「items = (re.split」の次行に「print(list(items))」で表示される結果を追記くださると回答得られやすいと思います。
rrrrrrrry
2018/12/03 11:40
[['りん', '副詞', '助詞類接続', '*', '*', '*', '*', 'りん', 'リン', 'リン'], ['ご', '接頭詞', '名詞接続', '*', '*', '*', '*', 'ご', 'ゴ', 'ゴ'], ['みかん', '名詞', '一般', '*', '*', '*', '*', 'みかん', 'ミカン', 'ミカン'], ['りんご', '名詞', '一般', '*', '*', '*', '*', 'りんご', 'リンゴ', 'リンゴ'], ['みかん', '名詞', '一般', '*', '*', '*', '*', 'みかん', 'ミカン', 'ミカン'], ['りんご', '名詞', '一般', '*', '*', '*', '*', 'りんご', 'リンゴ', 'リンゴ'], ['ぶどう', '名詞', '一般', '*', '*', '*', '*', 'ぶどう', 'ブドウ', 'ブドー'], ['EOS'], ['']]のような結果です.