Pythonで読み込んだcsvファイルの指定の行を取得するプログラムのエラーについて
退会済みユーザー
総合スコア0

Question

### 前提・実現したいこと Pythonで単語が１列に書いてあるcsvファイルを読み込み、各単語間の類似度を計算してその数値を表示するプログラムを書いています。類似度が一定数以上の組み合わせを出力したいです。 sample.csv ``` りんごいぬいちごくまみかんねこ ``` 出力したい結果（数値は仮） ``` りんご - いちご 0.3 ... ``` ### 発生している問題・エラーメッセージ指定の行の単語を取得する部分でエラーが発生している様です。 ``` AttributeError Traceback (most recent call last) in () 4 for i in range(0, len(lines)-2): 5 for j in range(1, len(lines)-1): ----> 6 similarity = wn.synsets(f.iloc[i], lang='jpn')[0].path_similarity(wn.synsets(f.iloc[j], lang='jpn')[0]) 7 if similarity > 0.3: 8 print( f.iloc[i] + '-' +f.iloc[j] + similarity) AttributeError: '_io.TextIOWrapper' object has no attribute 'iloc' ``` ### 該当のソースコード ```python #csv読み込み import csv f = open("sample.csv", encoding='utf-8' ) lines = f.readlines() #行の長さを確認する import pandas as pd import numpy as np print(len(lines)) #1行目からlen(lines)、2行目からlen(lines)まで最終行まで比較を繰り返す from nltk.corpus import wordnet as wn for i in range(0, len(lines)-2): for j in range(1, len(lines)-1): similarity = wn.synsets(f.iloc[i], lang='jpn')[0].path_similarity(wn.synsets(f.iloc[j], lang='jpn')[0]) if similarity > 0.3: #類似度0.3以上の組み合わせと数値を出力 print( f.iloc[i] + '-' +f.iloc[j] + similarity) ``` ### 試したこと WordNetを用いた類似度計算はこのようにできています。この'人間'や'サル'の部分をcsvファイルから読み込んだデータに変換して計算したいです。 ```python >>> from nltk.corpus import wordnet as wn >>> wn.synsets('人間', lang='jpn')[0].path_similarity(wn.synsets('サル', lang='jpn')[0]) 0.1111111111111111 ``` ###ご回答を受けて修正・新たな問題 ```Python import csv f = open("sample.csv", encoding='utf-8' ) lines = f.readlines() #行の長さを確認する import pandas as pd import numpy as np print(len(lines)) dataset1 = pd.read_csv("sample.csv") dataset1 #1行目からlen(lines)まで比較、2行目からlen(lines)まで比較を繰り返す from nltk.corpus import wordnet as wn for i in range(0, len(lines)-2): for j in range(1, len(lines)-1): similarity = wn.synsets(lines[i], lang='eng')[0].path_similarity(wn.synsets(lines[j], lang='eng')[0]) if similarity > 0.3: print( lines[i] + '-' + lines[j] + similarity) ``` 問題① エラー文以下のエラー文が新たに出力され、 IndexError: list index out of range という意味が理解できず、修正方法がわかりません。 ``` IndexError Traceback (most recent call last) in () 3 for i in range(0, len(lines)-2): 4 for j in range(1, len(lines)-1): ----> 5 similarity = wn.synsets(lines[i], lang='eng')[0].path_similarity(wn.synsets(lines[j], lang='eng')[0]) 6 if similarity > 0.3: 7 print( lines[i] + '-' +lines[j] + similarity) IndexError: list index out of range ```` ② あとは、例えば「りんご - みかん」の類似度計算が何らかの理由でエラーになってしまった場合、現状のコードでは、そのあとの「りんご - ねこ」の計算は実行されないと思うのですが、例外処理はどこに書くことになるでしょうか。 ### 補足情報（FW/ツールのバージョンなど） Python 3.6.3 Mac OS High Sierra Jupyter notebook 5.0.0

Accepted Answer

もし
```python
import csv
```
しただけでcsv的に処理されるとか、

```python
import pandas as pd
```

しただけでpandas的に使えるようになるという魔法を信じているのなら、今すぐその考えを捨ててください。そんな技術はありません。

`f`の型はざっくり言えばファイルオブジェクトです。`f`はファイルオブジェクトなので、`iloc`も当然無理です。

今回の質問の内容を実現する方針は2つあって、
- `pd.read_csv`とか使って最初からdfで読む
- pandasを使うのはやめてcsvをちまちま処理する

どっちでもできると思います。まあ、これくらいの内容なら、正直pandasは使っても使わなくても手間は変わりません。

`lines`をせっかく読み込んだのだから、使ってあげてください・・・。`f.iloc[i]`みたいなのを`lines[i]`とかにすれば、良いんじゃないでしょうか。

Answer

> AttributeError: '_io.TextIOWrapper' object has no attribute 'iloc'

エラーメッセージを素直に読んでみますと、'_io.TextIOWrapper' オブジェクトには、'iloc'アトリビュートがありません、となります。

ソースの中の、iloc と書いているところをよくチェックしてみましょう

前提・実現したいこと

発生している問題・エラーメッセージ

該当のソースコード

試したこと

補足情報（FW/ツールのバージョンなど）

関連した質問