SettingWithCopyWarning及びList index out of rangeの原因がわからない

Question

### 実現したいこと読み込んだCSVから形態素解析の分かち書きを出力したい。下記にあるソースコードの数字変換までは上手くいったのですが、その後の分かち書きをした結果を返す場所でエラーが起きてしまいます。Python初心者にご教授お願い致します。 ### 発生している問題・エラーメッセージ ``` ~\.conda\envs\NaturalLanguage01\python.exe ~\PycharmProjects lp01 eport eport1.py ~\PycharmProjects lp01 eport eport1.py:23: SettingWithCopyWarning: A value is trying to be set on a copy of a slice from a DataFrame. Try using .loc[row_indexer,col_indexer] = value instead See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy review_df['review_number_to_zero'] = review_df['review'].map(replace_number_to_zero) Traceback (most recent call last): File "~\PycharmProjects lp01 eport eport1.py", line 34, in review_df['lsbw'] = review_df['review_number_to_zero'].map(leaving_space_between_words_column) File "~\.conda\envs\NaturalLanguage01\lib\site-packages\pandas\core\series.py", line 4161, in map new_values = super()._map_values(arg, na_action=na_action) File "~\.conda\envs\NaturalLanguage01\lib\site-packages\pandas\core\base.py", line 870, in _map_values new_values = map_f(values, mapper) File "pandas\_libs\lib.pyx", line 2859, in pandas._libs.lib.map_infer File "~\PycharmProjects lp01 eport eport1.py", line 30, in leaving_space_between_words_column splitted = ' '.join([x.split(' ')[0] for x in tagger.parse(text).splitlines()[:-1] if x.split(' ')[1].split(',')[0] not in ['助詞', '助動詞', '接続詞', '動詞', '記号']]) File "~\PycharmProjects lp01 eport eport1.py", line 30, in splitted = ' '.join([x.split(' ')[0] for x in tagger.parse(text).splitlines()[:-1] if x.split(' ')[1].split(',')[0] not in ['助詞', '助動詞', '接続詞', '動詞', '記号']]) IndexError: list index out of range Process finished with exit code 1 ``` ### 該当のソースコード ```Python import csv import MeCab import re import pandas as pd shinjuku_ramen_df = pd.read_csv('data/shinjuku_ramen_review_high.csv',index_col=0) with open('data/shinjuku_ramen_review_high.csv') as f: writer = csv.writer(f, lineterminator=' ') # 店舗情報 store_df = shinjuku_ramen_df[['store_id', 'store_name', 'score', 'ward', 'review_cnt']] # 重複データを削除する store_df = store_df.drop_duplicates(['store_id', 'store_name', 'score', 'ward', 'review_cnt']) # 口コミ情報 review_df = shinjuku_ramen_df[['store_id', 'review']] # あまり関係のないと思われる数字を全て0に置き換える関数 def replace_number_to_zero(text): changed_text = re.sub(r'[0-9]+', "0", text) #半角 changed_text = re.sub(r'[０-９]+', "0", changed_text) #全角 return changed_text # 数字を0に置換 review_df['review_number_to_zero'] = review_df['review'].map(replace_number_to_zero) # 形態素解析する tagger = MeCab.Tagger('-Ochasen -u "C:/laboratory/MeCab/dic/neologd/neologd.dic"') # 分かち書きした結果を返す関数 def leaving_space_between_words_column(text): splitted = ' '.join([x.split(' ')[0] for x in tagger.parse(text).splitlines()[:-1] if x.split(' ')[1].split(',')[0] not in ['助詞', '助動詞', '接続詞', '動詞', '記号']]) return splitted # 分かち書きしたカラムをdfに追加する review_df['lsbw'] = review_df['review_number_to_zero'].map(leaving_space_between_words_column) print(review_df.head()) ```

Accepted Answer

別の方法ですることにしました。

Answer

~~EOSの行で`x.split('	')[1]`がエラーを起こすのではないでしょうか~~

```
tagger = MeCab.Tagger('-Ochasen -u "C:/laboratory/MeCab/dic/neologd/neologd.dic"')
```
は
```
tagger = MeCab.Tagger('-u "C:/laboratory/MeCab/dic/neologd/neologd.dic"')
```
じゃないでしょうか。
これはchasenフォーマット向けのコードではなさそうです。

----

```
tagger = MeCab.Tagger('-Ochasen -u "C:/laboratory/MeCab/dic/neologd/neologd.dic"')
print(tagger.parse('あのイーハトーヴォのすきとおった風、'))
```

と

```
tagger = MeCab.Tagger('-u "C:/laboratory/MeCab/dic/neologd/neologd.dic"')
print(tagger.parse('あのイーハトーヴォのすきとおった風、'))
```
を見比べてみてください。期待している出力はどちらですか?

実現したいこと

発生している問題・エラーメッセージ

該当のソースコード

関連した質問