質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.35%
CSV

CSV(Comma-Separated Values)はコンマで区切られた明白なテキスト値のリストです。もしくは、そのフォーマットでひとつ以上のリストを含むファイルを指します。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

pandas

Pandasは、PythonでRにおけるデータフレームに似た型を持たせることができるライブラリです。 行列計算の負担が大幅に軽減されるため、Rで行っていた集計作業をPythonでも比較的簡単に行えます。 データ構造を変更したりデータ分析したりするときにも便利です。

Q&A

1回答

1216閲覧

pythonでcsvファイルを読み込み、行間を比較し演算を行いたい

py_beginner1

総合スコア5

CSV

CSV(Comma-Separated Values)はコンマで区切られた明白なテキスト値のリストです。もしくは、そのフォーマットでひとつ以上のリストを含むファイルを指します。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

pandas

Pandasは、PythonでRにおけるデータフレームに似た型を持たせることができるライブラリです。 行列計算の負担が大幅に軽減されるため、Rで行っていた集計作業をPythonでも比較的簡単に行えます。 データ構造を変更したりデータ分析したりするときにも便利です。

0グッド

0クリップ

投稿2020/02/20 21:50

編集2020/02/20 23:06

前提・実現したいこと

pythonで以下のcsvファイルを読み込み、リストを扱って計算を行いたいです。

IDは0から99まで存在し各ID毎にData列にあるリスト内の数字が次の行のリスト内に含まれている確率を計算し,リストに代入したいです。
具体的には、ID=0の時1行目のリストに含まれている数字が2行目のリストに含まれている確率、2行目のリストに含まれている数字が3行目のリストに含まれている確率を最後の行まで計算し平均を出すといった作業をIDの数だけ行い最後にそれらの平均を出すプログラムを作っています。

発生している問題・エラーメッセージ

p[j].append(np.mean([d in df.loc[k+1, 'Data'] for d in df.loc[k, 'Data']])) IndexError: list index out of range

該当のcsv

python

1R,G,ID,Data 21,0,0,"[1, 9, 10, 90]" 31,0,1,"[0, 2, 11, 91]" 41,0,2,"[1, 3, 12, 92]" 51,0,3,"[2, 4, 13, 93]" 6、、、 72,0,0,"[3, 9, 10, 91]" 82,0,1,"[0, 2, 11, 91]" 92,0,2,"[1, 3, 12, 92]" 102,0,3,"[2, 4, 13, 93]" 11、、、 12

該当のソースコード

python

1import pandas as pd 2import json 3import io 4import numpy as np 5p=[] 6for i in range(1,11): 7 with open('d'+str(i)+'.csv') as da:#10個のファイルを扱う 8 df = pd.read_csv(da) 9 for j in range(0,100):#各IDそれぞれについて計算したい 10 df2 = df[(df["ID"]==j)] 11 for k in range(len(df2)): 12 p[j].append(np.mean([d in df.loc[k+1, 'Data'] for d in df.loc[k, 'Data']])) 13 print((sum(p[j]))/len(p[j]))

懸念点

初心者であるため、リストのエラーよりも大きな問題があるとおもわれるので
ご指摘のほどよろしくお願いいたします。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

can110

2020/02/20 23:01

「Agent_ID」は「ID」の誤記でしょうか。 また「p[j].append(np.mean([d in df.loc[k+1, 'Data'] for d in df.loc[k, 'Data']]))」の部分の動作が何を意図しているのか不明です。できればリスト内包表記を使わずに平易な処理に書き換えたうえで説明をお願いします。
py_beginner1

2020/02/20 23:11

IDの誤表記でした。 np.mean([d in df.loc[k+1, 'Data'] for d in df.loc[k, 'Data']]) では現在の行のリストに含まれている数字が次の行のリストに含まれている確率を計算しています。
can110

2020/02/20 23:20 編集

kとdfがある具体的な値をとった場合 [d in df.loc[k+1, 'Data'] for d in df.loc[k, 'Data']]の部分がどのような値のリストになると意図しているのかを提示ください。
py_beginner1

2020/02/21 00:24

この場合,df.loc[k+1, 'Data']が2行目のリスト,df.loc[k, 'Data']が1行目のリストを表しています. 1行目のリストが[1,2,3,4], 2行目のリストが[3,4,5,6,7]と仮定すると [d in df.loc[k+1, 'Data'] for d in df.loc[k, 'Data']] は[False,False,True,True]となり, np.mean([d in df.loc[k+1, 'Data'] for d in df.loc[k, 'Data']]) = 0.5となります
can110

2020/02/21 01:18

df.loc[k+1, 'Data'] によって存在しない3行目を参照することにならないでしょうか?
guest

回答1

0

最初に空の状態でリストpを宣言してる(p=[])ので、
p[j].append のときにはまだp[j]は存在しないですね。
だから list index out of range (リストの添字が範囲外)のエラーが出てます。

p.append で p[j] が出来ます。

p[j]は、リストPの中の1つのデータのみを表すので、
sumやlenする対象もpになるのではないでしょうか。

投稿2020/02/21 04:44

riko111

総合スコア149

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

py_beginner1

2020/02/21 06:46

その通りでした! 正しく初期化することで解決できました ありがとうございます
riko111

2020/02/21 06:55

良かったです。解決したなら解決済みにするようお願いします。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

まだベストアンサーが選ばれていません

会員登録して回答してみよう

アカウントをお持ちの方は

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.35%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問