いいタイトルが思いつかないですが、pythonのコードの改善がしたいです

自然言語処理100本ノックの30問目をこちらのサイトのコードを参考にして(というかそのまま書いて)

python
1path = 'neko.txt.mecab'
2with open(path) as f:
3    text = f.read().split('\n')
4result = []
5for line in text:
6    if line == 'EOS':
7        continue
8    ls = line.split('\t')
9    d = {}
10    tmp = ls[1].split(',')
11    d = {'surface':ls[0], 'base':tmp[6], 'pos':tmp[0], 'pos1':tmp[1]}
12    result.append(d)

という文を実行するとおそらく

python
1if line == 'EOS':
2    continue:
3ls = line.split('\t')

のところのせいで ls の一番最後に [' '] が生成されてしまい(そもそも最後にEOSが2行連続で出てしまうからこうなっているという認識であってますか?), li[1] のところで

Traceback (most recent call last):
File "NLP30.py", line 11, in <module>
tmp = ls[1].split(',')
IndexError: list index out of range

となっています. 例えば

python
1path = 'neko.txt.mecab'
2with open(path) as f:
3    text = f.read().split('\n')
4result = []
5d = {}
6for line in text:
7    if line == 'EOS':
8        continue
9    if line != '':
10            ls = line.split('\t')
11            tmp = ls[1].split(',')
12            d = {'surface':ls[0], 'base':tmp[6], 'pos':tmp[0], 'pos1':tmp[1]}
13            result.append(d)

という文に書き換えて実行すればうまくいきますが, そもそも [' '] が生成されない書き方をしたいのですが, わからないです. なにかアドバイスをいただけるでしょうか

行動規範の内容に同意します

回答1件

ベストアンサー

neko.txt.mecab の最後に改行が含まれていると思われます。
その結果、 line が空文字となるためそのような挙動となります。

事象が再現するコード

python
1ls = ''.split('\t')
2print(ls)
3print(ls[1])

コメント受けての追記

そこからの改善がよくわからないです。

mecabには詳しくないのですが、正常にmecabで出力したものでもこの事象が発生するのであれば、Hirasawa_Yui_3さんが記載されたコードのように分岐を追加すればよいかと思います。

EOSと条件をまとめると以下のようになるでしょうか。

python
1# 略
2for line in text:
3    if line in ['EOS', '']:
4        continue
5# 略

投稿2020/06/05 12:29

編集2020/06/08 07:10

yamap55

総合スコア1376

Hirasawa_Yui_3

2020/06/06 08:22 編集

すみません、言ってることはわかるのですが、そこからの改善がよくわからないです。

行動規範の内容に同意します

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.35%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう！

いいタイトルが思いつかないですが、pythonのコードの改善がしたいです

事象が再現するコード

関連した質問