Python：複数のCSVデータの読み込みと横結合について

複数のCSVファイルがあり、それを読み込んで、timeをkeyにmergeで横結合したいです。
イメージとしては以下のようなファイルです。

ファイル：data_20190708.csv
time count
1 10
2 5

ファイル：data_20190710.csv
time count
1 8
2 3

ファイル：data_20190711.csv
time count
1 8
3 5
↓
time count20190708 count20190710 count20190711
1 10 8 8
2 5 3
3 5

そこで以下のようなコードを書いたところ、mergeの部分でどう書いたらいいかわからなかったため、質問させていただきました。
ちなみにmergeまでの部分は一部省略しておりますが、基本的に合っており、リスト：liにはきちんと読み込んだ数種類のデータが入っていました。
timeをkeyにしたいのですが、concatを使う場合はtimeをindex化しないといけないですよね？
また、後学のために教えていただきたいのですが、仮にtime、placeのようにkeyが2つ以上ある場合はどうしたらいいのでしょうか？
よろしくお願いいたします。


folder_list = ['20190708','20190709','20190710','20190711']

for j in folder_list:
    file_name = 'C://Users//~' + j
    all_files = glob.glob(file_name + '/*.csv')
    files = [s for s in all_files if ('data' in s)]

    li = []

    for filename in files:
        df = pd.read_csv(filename, skiprows=4, header=None)
        df = df.rename(columns={0:'time', 1:'count'+j})
        li.append(df)

    df2 = pd.merge(li[1],li, on='time')

行動規範の内容に同意します

回答2件

ベストアンサー

質問にも言及されておりますが、 time をIndexに設定して、concat()を使う方法が一番シンプルかと思います。

Python
1for filename in files:
2    df = pd.read_csv(filename, skiprows=4, header=None, names=['time', 'count'+j], index_col='time')
3    li.append(df)
4
5df2 = pd.concat(li, axis=1).reset_index()

どうしてもmerge()を使いたいのであれば、こんな感じでしょうか。

Python
1df = pd.DataFrame(columns=['time'])
2for filename in files:
3    tmp_df = pd.read_csv(filename, skiprows=4, header=None, names=['time', 'count'+j], index_col='time')
4    df = df.merge(tmp_df, how='outer', on='time')

merge() は基本的に２つのDataFrameを結合するものなので、ループ毎に結合していく形式になります。

投稿2019/07/15 07:01

magichan

総合スコア15898

ループの中でadd_prefixメソッドを使うか文字列を結合するかして列名を予め意図するようなものに変えておき、二重forループを抜けた後に、pd.concatで結合するのが簡単に思えます。

列方向で結合する場合は、axis=1を指定してください。

追記

こんな感じでしょうか。

python
1import pandas as pd
2
3dfs = [pd.DataFrame({"time":[1, 2], "count":[5, 10]}),
4       pd.DataFrame({"time":[1, 2], "count":[8, 3]}),
5       pd.DataFrame({"time":[1, 3], "count":[8, 5]})]
6names = ["20190708", "20190710", "20190711"]
7
8df_all = pd.DataFrame({"time":[]})
9for df, name in zip(dfs, names):
10    df.rename(columns={"count":"count" + name}, inplace=True)
11    df_all = df_all.merge(df, how="outer")
12df_all.set_index("time", inplace=True)
13print(df_all)
14
15""" =>
16      count20190708  count20190710  count20190711
17time                                             
181               5.0            8.0            8.0
192              10.0            3.0            NaN
203               NaN            NaN            5.0
21"""