質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.37%
CSV

CSV(Comma-Separated Values)はコンマで区切られた明白なテキスト値のリストです。もしくは、そのフォーマットでひとつ以上のリストを含むファイルを指します。

Mecab

Mecabは、オープンソースの形態素解析エンジンです。 言語、辞書、コーパスに依存しない汎用的な設計を基本方針としています。 Mecabの由来は、開発者の好物である和布蕪(めかぶ)から名づけられました。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

データマイニング

データマイニングは、購買履歴やクレジットカードの利用履歴、電話の通話履歴など企業にある大量のデータを解析して、その中に隠れたパターンやルールを探し出す技術です。DMと略されることもあります。

自然言語処理

自然言語処理は、日常的に使用される自然言語をコンピューターに処理させる技術やソフトウェアの総称です。

Q&A

1回答

2864閲覧

List index out of rangeの原因元が分からない

takepon-maru

総合スコア5

CSV

CSV(Comma-Separated Values)はコンマで区切られた明白なテキスト値のリストです。もしくは、そのフォーマットでひとつ以上のリストを含むファイルを指します。

Mecab

Mecabは、オープンソースの形態素解析エンジンです。 言語、辞書、コーパスに依存しない汎用的な設計を基本方針としています。 Mecabの由来は、開発者の好物である和布蕪(めかぶ)から名づけられました。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

データマイニング

データマイニングは、購買履歴やクレジットカードの利用履歴、電話の通話履歴など企業にある大量のデータを解析して、その中に隠れたパターンやルールを探し出す技術です。DMと略されることもあります。

自然言語処理

自然言語処理は、日常的に使用される自然言語をコンピューターに処理させる技術やソフトウェアの総称です。

0グッド

0クリップ

投稿2021/08/24 14:21

読み込んだCSVから形態素解析の分かち書きを出力したいがList index out of rangeが出た

List index out of rangeが出た原因が分からない

現在CSVを読み込みんだデータから形態素解析を行い、分かち書き結果を新しく列を作り、出力を行うと思っています。1行ずつの文章から形態素解析を行い、結果を出力することが出来たのですが、複数行や行が空いているような文字列を形態素解析を行うとしたところ、list index out of rangeというエラーが返されました。1行や行間がないデータでは出来たので、複数行という点に問題がありそうな予感がしていますが、いまいち原因が分かりません。

コードは以下の通りになっています。

python

1def leaving_space_between_words_column(text): 2 splitted = ' '.join([x.split('\t')[0] for x in tagger.parse(text).splitlines()[:-1] if x.split('\t')[1].split(',')[0] not in ['連体詞','助詞', '助動詞', '接続詞', '記号','動詞', '副詞','形容詞']]) 3 return splitted 4 5review_df['lsbw'] = review_df['Text'].map(leaving_space_between_words_column) 6review_df.head(20)

エラーは以下の様な形です。

--------------------------------------------------------------------------- IndexError Traceback (most recent call last) <ipython-input-25-d0e90c8f3540> in <module> 4 5 # 分かち書きしたカラムをdfに追加する ----> 6 review_df['lsbw'] = review_df['text'].map(leaving_space_between_words_column) 7 review_df.head(20) ~/opt/anaconda3/lib/python3.8/site-packages/pandas/core/series.py in map(self, arg, na_action) 3968 dtype: object 3969 """ -> 3970 new_values = super()._map_values(arg, na_action=na_action) 3971 return self._constructor(new_values, index=self.index).__finalize__( 3972 self, method="map" ~/opt/anaconda3/lib/python3.8/site-packages/pandas/core/base.py in _map_values(self, mapper, na_action) 1158 1159 # mapper is a function -> 1160 new_values = map_f(values, mapper) 1161 1162 return new_values pandas/_libs/lib.pyx in pandas._libs.lib.map_infer() <ipython-input-25-d0e90c8f3540> in leaving_space_between_words_column(text) 1 def leaving_space_between_words_column(text): ----> 2 splitted = ' '.join([x.split('\t')[0] for x in tagger.parse(text).splitlines()[:-1] if x.split('\t')[1].split(',')[0] not in ['連体詞','助詞', '助動詞', '接続詞', '記号','動詞', '副詞','形容詞']]) 3 return splitted 4 5 # 分かち書きしたカラムをdfに追加する <ipython-input-25-d0e90c8f3540> in <listcomp>(.0) 1 def leaving_space_between_words_column(text): ----> 2 splitted = ' '.join([x.split('\t')[0] for x in tagger.parse(text).splitlines()[:-1] if x.split('\t')[1].split(',')[0] not in ['連体詞','助詞', '助動詞', '接続詞', '記号','動詞', '副詞','形容詞']]) 3 return splitted 4 5 # 分かち書きしたカラムをdfに追加する IndexError: list index out of range

データの形はCSVで、以下の通りとなっています。

イメージ説明

何卒、ご助力を宜しくお願い申し上げます。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

sibainu

2021/08/24 14:42

このエラーの内容はリストの指定した番号が範囲外と言うエラーです。 例えば list=[0,1,2,3,4,5,6,7,8,9] for i in range(10): print(list[i]) とすると、listには10番目が存在しないため list index out of rangeと言うエラーが吐かれます。
jbpb0

2021/08/25 00:18

sibainuさん その例はエラーになりませんよ
jbpb0

2021/08/25 05:35 編集

質問者さん 当方のMacで、テスト用のデータをでっち上げて確認してみたのですが、エラー出ませんでした 下記の内容の「sample.csv」というファイルを作りました 3行全て改行を含んでます No,Text 100,"今日は雨が降りそうです 傘を持って行こう" 102,"お腹が空いた ご飯を食べよう" 104,"事故で電車が止まってる バスを使います" 下記のコードを実行しても、エラー出ませんでした (関数定義は質問のコードと同じで、インデント有ります) import pandas as pd import MeCab tagger = MeCab.Tagger() def leaving_space_between_words_column(text): splitted = ' '.join([x.split('\t')[0] for x in tagger.parse(text).splitlines()[:-1] if x.split('\t')[1].split(',')[0] not in ['連体詞','助詞', '助動詞', '接続詞', '記号','動詞', '副詞','形容詞']]) return splitted review_df = pd.read_csv('sample.csv') review_df['lsbw'] = review_df['Text'].map(leaving_space_between_words_column) print(review_df.head(20)) 実行したら、コードの最後のprint(...で、下記のように表示されました No Text lsbw 0 100 今日は雨が降りそうです\n傘を持って行こう 今日 は 雨 が 降り そう です 傘 を 持っ て 行こう 1 102 お腹が空いた\nご飯を食べよう お腹 が 空い た ご飯 を 食べよう 2 104 事故で電車が止まってる\nバスを使います 事故 で 電車 が 止まっ てる バス を 使い ます
jbpb0

2021/08/25 06:55 編集

当方のWindows PCで、改めてWindows上でCSVファイルを作ってPythonコードを実行したら、質問と同じエラーになりました CSVファイルの改行コードを、Windowsデフォルトの「CR+LF」から、Macと同じ「LF」に変えたら、エラー出なくなりました 「CR」があると、おかしくなるみたいです 改行コードを「LF」にした場合は、コードの最後のprint(...で、下記のように表示されました No Text lsbw 0 100 今日は雨が降りそうです\n傘を持って行こう 今日 雨 そう 傘 1 102 お腹が空いた\nご飯を食べよう お腹 ご飯 2 104 事故で電車が止まってる\nバスを使います 事故 電車 バス
jbpb0

2021/08/25 06:54

Windowsで、CSVファイルの改行コードが「CR+LF」の場合に、 for x in tagger.parse(review_df['Text'][0]).splitlines()[:-1]: print(x) (2行目はインデント有り) を実行してみると、下記の結果が表示されます 今日 名詞,副詞可能,*,*,*,*,今日,キョウ,キョー は 助詞,係助詞,*,*,*,*,は,ハ,ワ 雨 名詞,一般,*,*,*,*,雨,アメ,アメ が 助詞,格助詞,一般,*,*,*,が,ガ,ガ 降り 動詞,自立,*,*,一段,連用形,降りる,オリ,オリ そう 名詞,接尾,助動詞語幹,*,*,*,そう,ソウ,ソー です 助動詞,*,*,*,特殊・デス,基本形,です,デス,デス 記号,一般,*,*,*,*,* 傘 名詞,一般,*,*,*,*,傘,カサ,カサ を 助詞,格助詞,一般,*,*,*,を,ヲ,ヲ 持っ 動詞,自立,*,*,五段・タ行,連用タ接続,持つ,モッ,モッ て 助詞,接続助詞,*,*,*,*,て,テ,テ 行こ 動詞,非自立,*,*,五段・カ行促音便,未然ウ接続,行く,イコ,イコ う 助動詞,*,*,*,不変化型,基本形,う,ウ,ウ 上記結果の上から8, 9行目は、CSVファイルの改行コードを「LF」に変えたらなくなります 何も無い8行目で要素を参照しようとしてエラーになっているのではないですかね
takepon-maru

2021/08/25 07:51 編集

改行コードを変換したら動きました。改行コードが問題だったとは、、、 頂いたデータがWindowsで作られていたものであったため、jbpb0様の仰る通り改行コードが「CR+LF」となっていたことが大きな原因だったようです。 私ではこの原因まで行き着くことが出来ませんでした。 大変わかりやすいご回答に加えて、アプローチまでの道筋まで記載して頂き本当にありがとうございます。 jbpb0様のご回答をベストアンサーに登録したいのですが、この場合はいかがいたしましょうか?
jbpb0

2021/08/25 08:18

本当は、Pythonコード内でデータ中の「CR」のみ削除した方がいいのでしょうね
guest

回答1

0

CSVファイルの改行コードを、Windowsデフォルトの「CR+LF」から、Macと同じ「LF」に変えたら、エラーが出なくなると思います

投稿2021/08/26 05:17

jbpb0

総合スコア7653

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

まだベストアンサーが選ばれていません

会員登録して回答してみよう

アカウントをお持ちの方は

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.37%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問