python pandas csvデータの抽出について

pythonのpandasを使用し、元のdata.csvデータから値を抽出しlist.csvに出力したいと考えております。

data.csv[id,id2,cost]:[1,10,5][2,10,3][3,10,1][1,13,10][2,13,5][3,13,4]......

list.csv[id2,min]:[10, ][13, ]...

といった内容になっております。

data.csvのid2の値に対してcostが一つであれば、list.csvのminに入る値は一つに決まるのですが、data.csvのid2の値に対してcostが複数ある場合（今回は３つ）に、最小となるcostをlist.csvに出力するにはどのようにしたらよいでしょうか。

list.csvにおいてid2が10の時には1を、13の時には4を出力したいです。

なお、data.csvにおいてid2が１つである場合には、list.csvのminは１つに決まると思いますが、その時のスクリプトは以下になります。

python
1import pandas as pd
2
3df = pd.read_csv("data.csv")
4df1 = pd.read_csv("list.csv")
5new_file = "data_min.csv"
6results = df.merge(df1,on="id2")
7results.to_csv(new_file,index=False)

上記について教えていただけたらと思います。
よろしくお願いいたします。

行動規範の内容に同意します

回答1件

ベストアンサー

これで良いのではないでしょうか？

Python
1df1['min'] = df1['id2'].map(df.groupby('id2')['cost'].min())

少し説明を加えると

df.groupby('id2')['cost'].min()　にて df(data.csv)のデータフレームを id2の値ごとにcost列が最小の値を導く
df1['id2'].map(...)　にて上記の結果を df1(list.csv)のid2列の値で引き当てる
結果をdf1のmin列に格納する

を行っております。

動作サンプルコード

Python
1import pandas as pd
2import io
3
4data_csv = """
5id,id2,cost
61,10,5
72,10,3
83,10,1
91,13,10
102,13,5
113,13,4
12"""
13
14df = pd.read_csv(io.StringIO(data_csv))
15print(df)
16#   id  id2  cost
17#0   1   10     5
18#1   2   10     3
19#2   3   10     1
20#3   1   13    10
21#4   2   13     5
22#5   3   13     4
23
24conv = df.groupby('id2')['cost'].min()
25print(conv)
26#id2
27#10    1
28#13    4
29
30list_csv = """
31id2,min
3210,
3313,
34"""
35df1 = pd.read_csv(io.StringIO(list_csv))
36print(df1)
37#   id2  min
38#0   10  NaN
39#1   13  NaN
40
41ret = df1['id2'].map(conv)
42print(ret)
43#0    1
44#1    4
45#Name: id2, dtype: int64
46
47df1['min'] = ret
48print(df1)
49#   id2  min
50#0   10    1
51#1   13    4

投稿2019/11/11 05:17

編集2019/11/11 10:45

magichan

総合スコア15898

退会済みユーザー

2019/11/11 06:24

magichanさん> ありがとうございます。ご教授いただいた内容から自分で作成したスクリプトの下３行は削除してよいと判断し、次のようにスクリプトを変更したのですが、結果がdf1のminに格納されませんでした。（エラーメッセージはありませんでした）どういった原因が考えられますでしょうか。お手数をおかけいたしますが、どうぞよろしくお願いいたします。 import pandas as pd df = pd.read_csv("data.csv") df1 = pd.read_csv("list.csv") df1["min"] = df1["id2"].map(df.groupby("id2")["cost"].min())

magichan

2019/11/11 07:46

ん、なんでだろ？とりあえず print(df.groupby("id2")["cost"].min()) や print(df1["id2"].map(df.groupby("id2")["cost"].min())) とすると、何が表示されますか？

退会済みユーザー

2019/11/11 08:16

0 1 1 4 Name: id2, dtype: int64 プログラム 'python.exe' はコード 0 (0x0) で終了しました。エラーメッセージはないのですが、list.csvのmin列に出力されないといった状況です。

magichan

2019/11/11 10:47

とりあえず、実際のデータにて動作するサンプルコードを追記しました。このまま実行すると動作すると思いますので、ご自身のデータとどのように違うのかを確認してみてください。

huuuuuuu

2019/11/12 04:24 編集

、

退会済みユーザー

2019/11/12 04:24

ご教授いただいた内容で動作いたしました。ありがとうございました。もう一点ご質問よろしいでしょうか。基本は上記同様にdata.csvのid2に着目してcostが最小の値をlist.csvのminに出力するのですが、今回新たにid2がminを取る時のdata.csvのid（1,2,3）にも着目したいと考えております。具体的には、同じ番号のidの最小値を取れる回数に制限を設け（id:1⇒２回、id2⇒２回、id3⇒１回まで）最小値を取るidが制限に達した場合、そのidはminを取る場合であっても、制限に達していないidのうちから最小値を選択するようにするにはどのように変更したらよいでしょうか。 data.csv[id,id2,cost]:[1,10,5][2,10,3][3,10,1][1,13,10][2,13,5][3,13,4][1,18,1][2,18,5][3,18,10][1,20,10][2,20,5][3,20,4][1,25,10][2,25,1][3,25,5]...... list.csv[id2,min]:[10, 1][13, 5][18,1][20,5][25,10]...... のように出力したいです。 id2が10の時は最小値が1なのでlist.csvのminには１が出力されます。（この時のidは３⇒制限回数１回に達したので最小値であってもidが３のものは以降使用できない） id2が13の時の最小値は4ですが、id3のものは使用できない為、2番目に小さい5をlist.csvのminに出力します。（この時のidは２）（最後の方になると、使用できるidの制限でmaxがlist.csvのminに出力されることもあり得ます。。。）このようにlist.csvの上から５列目までこの動作を繰り返すにはどのように変更したらよろしいでしょうか。なお、list.csvの６列目以降のminに関しては出力しなくて結構です。（id:1,2,3の制限の合計が５である為、６行目以降は全てのidが制限に達する為です。）お忙しいところ申し訳ございません。ご教授いただけましたら幸いです。よろしくお願いいたします。

magichan

2019/11/12 07:39

ざっと上記仕様を見ました。簡単に実現できるのであれば回答しようかと思っておりましたが、残念ながら現状のコードを少し改変すると解決できるようなものではなく、全く違うアプローチを考える必要がありそのです。ですので大変申し訳有りませんが、これは別の質問として立てていただいた方がよいかと思います

退会済みユーザー

2019/11/12 07:44

全く違うアプローチが必要とのこと、承知いたしました。ご丁寧にご回答いただきありがとうございました。

行動規範の内容に同意します