pythonのpandasを使ったマージを複数csvファイルに実行

pythonのpandasで、データ一覧表(clster)と複数のcsvファイル（list1～list1000）を使用し、データ一覧表にあるidとcsvファイルのidを照合してマージし、新たなファイルに出力したいと考えております。

データ一覧表と一つのcsvファイルでやった場合には、以下のスクリプトでできるのですが、
これをlist1.csv～list1000.csvについて同じことをやり、clster_S1.csv～clster_S1000.csvまで新たにファイル出力する為にはどうしたらよろしいでしょうか。

python
1import pandas as pd
2
3df1 = pd.read_csv("clster.csv")
4df2 = pd.read_csv("list1.csv")
5
6new_file = "clster_S1.csv"
7
8results=df1.merge(df2,on="id")
9results.to_csv(new_file,index=False)
10

初歩的な内容で大変申し訳ございませんが、ご教授いただけましたら幸いです。
よろしくお願いいたします。

行動規範の内容に同意します

回答2件

ベストアンサー

普通にforループすればいいと思います。

python
1import pandas as pd
2
3df1 = pd.read_csv("clster.csv")
4
5for i in range(1,1001):
6    df2 = pd.read_csv(f"list{i}.csv")
7
8    new_file = f"clster_S{i}.csv"
9
10    results=df1.merge(df2,on="id")
11    results.to_csv(new_file,index=False)

f-stringはpython3.6以降の機能なのでそれ以前なら"list{0}.csv".format(i)みたいにformatメソッドを使ってください。

投稿2019/10/31 05:15

kairi003

総合スコア1332

退会済みユーザー

2019/10/31 12:00

ご連絡ありがとうございます。ご教授いただいた内容でできました。上記の内容に関連してもう一点お聞きしたいのですが、上記ではデータ一覧表とcsvファイルのidが1：1だったのですが、データ一覧表とcsvファイルのidが3：1でidに紐づけられているcostが異なる時にcostが最小となるidとcostをマージするにはどのようにしたらよろしいでしょうか。上記一覧表［id,cost］[1,5] csファイル[id][1] ⇒　　マージ［id,cost］[1,5] 新規一覧表 [id,cost] [1,5] [1,10] [1,7] csvファイル[id][1]　⇒マージ[id,cost] [1,5] といったようにvlookupに条件を付けたいです。お忙しいところ恐縮ではございますが、ご教授いただけましたら幸いです。よろしくお願いいたします。

kairi003

2019/10/31 14:56

そもそも元々のcsvファイル群の中身の話は無かったので、それも示さずいきなりidとかcostとか言われてもちょっと困るんですが、「新規」のは何も考えずにidをキーに取れば期待した結果が得られませんか？ https://note.nkmk.me/python-pandas-merge-join/ とか見る限りキーが両方に存在しないデータは結合されずに消えるように見えるのですが。

行動規範の内容に同意します

pathlib を使って csv ファイルがあるディレクトリのファイル一覧を取得し、各ファイルに対して質問欄のコードを適用していけばよいでしょう。

python
1from pathlib import Path
2
3import pandas as pd
4
5input_dir = Path("data")  # list1.csv ~ list1000.csv があるディレクトリ
6output_dir = Path("output")
7output_dir.mkdir(exist_ok=True)
8
9clster = pd.read_csv("clster.csv")
10
11for csv_path in input_dir.glob("*.csv"):
12    # CSV を読み込む。
13    df = pd.read_csv(csv_path)
14    # マージする。
15    results = clster.merge(df, on="id")
16    # 保存する。
17    save_path = output_dir / csv_path.name
18    results.to_csv(save_path, index=False)