質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
CSV

CSV(Comma-Separated Values)はコンマで区切られた明白なテキスト値のリストです。もしくは、そのフォーマットでひとつ以上のリストを含むファイルを指します。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

Q&A

解決済

2回答

6349閲覧

Python:複数のCSVデータの読み込みと横結合について

artg

総合スコア27

CSV

CSV(Comma-Separated Values)はコンマで区切られた明白なテキスト値のリストです。もしくは、そのフォーマットでひとつ以上のリストを含むファイルを指します。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

0グッド

0クリップ

投稿2019/07/14 18:42

編集2019/07/15 01:56

複数のCSVファイルがあり、それを読み込んで、timeをkeyにmergeで横結合したいです。
イメージとしては以下のようなファイルです。

ファイル:data_20190708.csv
time count
1 10
2 5

ファイル:data_20190710.csv
time count
1 8
2 3

ファイル:data_20190711.csv
time count
1 8
3 5

time count20190708 count20190710 count20190711
1 10 8 8
2 5 3
3 5

そこで以下のようなコードを書いたところ、mergeの部分でどう書いたらいいかわからなかったため、質問させていただきました。
ちなみにmergeまでの部分は一部省略しておりますが、基本的に合っており、リスト:liにはきちんと読み込んだ数種類のデータが入っていました。
timeをkeyにしたいのですが、concatを使う場合はtimeをindex化しないといけないですよね?
また、後学のために教えていただきたいのですが、仮にtime、placeのようにkeyが2つ以上ある場合はどうしたらいいのでしょうか?
よろしくお願いいたします。

folder_list = ['20190708','20190709','20190710','20190711'] for j in folder_list: file_name = 'C://Users//~' + j all_files = glob.glob(file_name + '/*.csv') files = [s for s in all_files if ('data' in s)] li = [] for filename in files: df = pd.read_csv(filename, skiprows=4, header=None) df = df.rename(columns={0:'time', 1:'count'+j}) li.append(df) df2 = pd.merge(li[1],li, on='time')

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答2

0

ベストアンサー

質問にも言及されておりますが、 time をIndexに設定して、concat()を使う方法が一番シンプルかと思います。

Python

1for filename in files: 2 df = pd.read_csv(filename, skiprows=4, header=None, names=['time', 'count'+j], index_col='time') 3 li.append(df) 4 5df2 = pd.concat(li, axis=1).reset_index()

どうしてもmerge()を使いたいのであれば、こんな感じでしょうか。

Python

1df = pd.DataFrame(columns=['time']) 2for filename in files: 3 tmp_df = pd.read_csv(filename, skiprows=4, header=None, names=['time', 'count'+j], index_col='time') 4 df = df.merge(tmp_df, how='outer', on='time')

merge() は基本的に2つのDataFrameを結合するものなので、ループ毎に結合していく形式になります。

投稿2019/07/15 07:01

magichan

総合スコア15898

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

0

ループの中でadd_prefixメソッドを使うか文字列を結合するかして列名を予め意図するようなものに変えておき、二重forループを抜けた後に、pd.concatで結合するのが簡単に思えます。

列方向で結合する場合は、axis=1を指定してください。

追記

こんな感じでしょうか。

python

1import pandas as pd 2 3dfs = [pd.DataFrame({"time":[1, 2], "count":[5, 10]}), 4 pd.DataFrame({"time":[1, 2], "count":[8, 3]}), 5 pd.DataFrame({"time":[1, 3], "count":[8, 5]})] 6names = ["20190708", "20190710", "20190711"] 7 8df_all = pd.DataFrame({"time":[]}) 9for df, name in zip(dfs, names): 10 df.rename(columns={"count":"count" + name}, inplace=True) 11 df_all = df_all.merge(df, how="outer") 12df_all.set_index("time", inplace=True) 13print(df_all) 14 15""" => 16 count20190708 count20190710 count20190711 17time 181 5.0 8.0 8.0 192 10.0 3.0 NaN 203 NaN NaN 5.0 21"""

投稿2019/07/14 19:05

編集2019/07/15 06:48
hayataka2049

総合スコア30933

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

artg

2019/07/15 01:57

ご回答ありがとうございます。重ねて申し訳ございませんが、keyの指定についても教えていただけないでしょうか。 よろしくお願いいたします。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問