List index out of rangeの原因元が分からない

読み込んだCSVから形態素解析の分かち書きを出力したいがList index out of rangeが出た

List index out of rangeが出た原因が分からない

現在CSVを読み込みんだデータから形態素解析を行い、分かち書き結果を新しく列を作り、出力を行うと思っています。１行ずつの文章から形態素解析を行い、結果を出力することが出来たのですが、複数行や行が空いているような文字列を形態素解析を行うとしたところ、list index out of rangeというエラーが返されました。１行や行間がないデータでは出来たので、複数行という点に問題がありそうな予感がしていますが、いまいち原因が分かりません。

コードは以下の通りになっています。

python
1def leaving_space_between_words_column(text):
2    splitted = ' '.join([x.split('\t')[0] for x in tagger.parse(text).splitlines()[:-1] if x.split('\t')[1].split(',')[0] not in ['連体詞','助詞', '助動詞', '接続詞', '記号','動詞', '副詞','形容詞']])
3    return splitted
4
5review_df['lsbw'] = review_df['Text'].map(leaving_space_between_words_column)
6review_df.head(20)

エラーは以下の様な形です。

---------------------------------------------------------------------------
IndexError                                Traceback (most recent call last)
<ipython-input-25-d0e90c8f3540> in <module>
      4 
      5 # 分かち書きしたカラムをdfに追加する
----> 6 review_df['lsbw'] = review_df['text'].map(leaving_space_between_words_column)
      7 review_df.head(20)

~/opt/anaconda3/lib/python3.8/site-packages/pandas/core/series.py in map(self, arg, na_action)
   3968         dtype: object
   3969         """
-> 3970         new_values = super()._map_values(arg, na_action=na_action)
   3971         return self._constructor(new_values, index=self.index).__finalize__(
   3972             self, method="map"

~/opt/anaconda3/lib/python3.8/site-packages/pandas/core/base.py in _map_values(self, mapper, na_action)
   1158 
   1159         # mapper is a function
-> 1160         new_values = map_f(values, mapper)
   1161 
   1162         return new_values

pandas/_libs/lib.pyx in pandas._libs.lib.map_infer()

<ipython-input-25-d0e90c8f3540> in leaving_space_between_words_column(text)
      1 def leaving_space_between_words_column(text):
----> 2     splitted = ' '.join([x.split('\t')[0] for x in tagger.parse(text).splitlines()[:-1] if x.split('\t')[1].split(',')[0] not in ['連体詞','助詞', '助動詞', '接続詞', '記号','動詞', '副詞','形容詞']])
      3     return splitted
      4 
      5 # 分かち書きしたカラムをdfに追加する

<ipython-input-25-d0e90c8f3540> in <listcomp>(.0)
      1 def leaving_space_between_words_column(text):
----> 2     splitted = ' '.join([x.split('\t')[0] for x in tagger.parse(text).splitlines()[:-1] if x.split('\t')[1].split(',')[0] not in ['連体詞','助詞', '助動詞', '接続詞', '記号','動詞', '副詞','形容詞']])
      3     return splitted
      4 
      5 # 分かち書きしたカラムをdfに追加する

IndexError: list index out of range

データの形はCSVで、以下の通りとなっています。

何卒、ご助力を宜しくお願い申し上げます。

sibainu

2021/08/24 14:42

このエラーの内容はリストの指定した番号が範囲外と言うエラーです。例えば list=[0,1,2,3,4,5,6,7,8,9] for i in range(10): print(list[i]) とすると、listには10番目が存在しないため list index out of rangeと言うエラーが吐かれます。

jbpb0

2021/08/25 00:18

sibainuさんその例はエラーになりませんよ

jbpb0

2021/08/25 05:35 編集

質問者さん当方のMacで、テスト用のデータをでっち上げて確認してみたのですが、エラー出ませんでした下記の内容の「sample.csv」というファイルを作りました 3行全て改行を含んでます No,Text 100,"今日は雨が降りそうです傘を持って行こう" 102,"お腹が空いたご飯を食べよう" 104,"事故で電車が止まってるバスを使います" 下記のコードを実行しても、エラー出ませんでした (関数定義は質問のコードと同じで、インデント有ります) import pandas as pd import MeCab tagger = MeCab.Tagger() def leaving_space_between_words_column(text): splitted = ' '.join([x.split('\t')[0] for x in tagger.parse(text).splitlines()[:-1] if x.split('\t')[1].split(',')[0] not in ['連体詞','助詞', '助動詞', '接続詞', '記号','動詞', '副詞','形容詞']]) return splitted review_df = pd.read_csv('sample.csv') review_df['lsbw'] = review_df['Text'].map(leaving_space_between_words_column) print(review_df.head(20)) 実行したら、コードの最後のprint(...で、下記のように表示されました No Text lsbw 0 100 今日は雨が降りそうです\n傘を持って行こう今日は雨が降りそうです傘を持って行こう 1 102 お腹が空いた\nご飯を食べようお腹が空いたご飯を食べよう 2 104 事故で電車が止まってる\nバスを使います事故で電車が止まってるバスを使います

jbpb0

2021/08/25 06:55 編集

当方のWindows PCで、改めてWindows上でCSVファイルを作ってPythonコードを実行したら、質問と同じエラーになりました CSVファイルの改行コードを、Windowsデフォルトの「CR+LF」から、Macと同じ「LF」に変えたら、エラー出なくなりました「CR」があると、おかしくなるみたいです改行コードを「LF」にした場合は、コードの最後のprint(...で、下記のように表示されました No Text lsbw 0 100 今日は雨が降りそうです\n傘を持って行こう今日雨そう傘 1 102 お腹が空いた\nご飯を食べようお腹ご飯 2 104 事故で電車が止まってる\nバスを使います事故電車バス

jbpb0

2021/08/25 06:54

Windowsで、CSVファイルの改行コードが「CR+LF」の場合に、 for x in tagger.parse(review_df['Text'][0]).splitlines()[:-1]: print(x) (2行目はインデント有り) を実行してみると、下記の結果が表示されます今日名詞,副詞可能,*,*,*,*,今日,キョウ,キョーは助詞,係助詞,*,*,*,*,は,ハ,ワ雨名詞,一般,*,*,*,*,雨,アメ,アメが助詞,格助詞,一般,*,*,*,が,ガ,ガ降り動詞,自立,*,*,一段,連用形,降りる,オリ,オリそう名詞,接尾,助動詞語幹,*,*,*,そう,ソウ,ソーです助動詞,*,*,*,特殊・デス,基本形,です,デス,デス記号,一般,*,*,*,*,* 傘名詞,一般,*,*,*,*,傘,カサ,カサを助詞,格助詞,一般,*,*,*,を,ヲ,ヲ持っ動詞,自立,*,*,五段・タ行,連用タ接続,持つ,モッ,モッて助詞,接続助詞,*,*,*,*,て,テ,テ行こ動詞,非自立,*,*,五段・カ行促音便,未然ウ接続,行く,イコ,イコう助動詞,*,*,*,不変化型,基本形,う,ウ,ウ上記結果の上から8, 9行目は、CSVファイルの改行コードを「LF」に変えたらなくなります何も無い8行目で要素を参照しようとしてエラーになっているのではないですかね

takepon-maru

2021/08/25 07:51 編集

改行コードを変換したら動きました。改行コードが問題だったとは、、、頂いたデータがWindowsで作られていたものであったため、jbpb0様の仰る通り改行コードが「CR+LF」となっていたことが大きな原因だったようです。私ではこの原因まで行き着くことが出来ませんでした。大変わかりやすいご回答に加えて、アプローチまでの道筋まで記載して頂き本当にありがとうございます。 jbpb0様のご回答をベストアンサーに登録したいのですが、この場合はいかがいたしましょうか？

jbpb0

2021/08/25 08:18

本当は、Pythonコード内でデータ中の「CR」のみ削除した方がいいのでしょうね