PandasのDataFrameのマージ方法について

以下のような2つのDataFrameがあったとして、
上のDataFrameをdf1、下をdf2としたときでのマージ方法について相談があります。

Date	A	B
2010/1/1	1	2
2010/1/2	3	4
2010/1/3	5	6
2010/1/4	7	8

Date	A	B
2010/1/3	100	200
2010/1/4	300	400
2010/1/5	500	600

上2つのDataFrameを、以下のようにしたい場合、どのようなコードを記述すればよろしいでしょうか？
Date列を主キーとして、両方のDataFrameにある場合はdf2を優先し、df2に無いものだけをdf1から取得するイメージです。

Date	A	B
2010/1/1	1	2
2010/1/2	3	4
2010/1/3	100	200
2010/1/4	300	400
2010/1/5	500	600

行動規範の内容に同意します

回答2件

ちょっと面倒くさいですが、以下のような感じでできます。

Python
1import pandas as pd
2
3df1 = pd.DataFrame({'Date':[1,2,3,4], 'A':[1,3,5,7], 'B':[2,4,6,8]})
4df2 = pd.DataFrame({'Date':[3,4,5], 'A':[100,300,500], 'B':[200,400,600]})
5
6KEY = ['Date']
7dfm = pd.merge(df1, df2, on=KEY, how='outer', suffixes=['_1', ''])
8print(dfm)
9#   Date  A_1  B_1      A      B
10#0     1  1.0  2.0    NaN    NaN
11#1     2  3.0  4.0    NaN    NaN
12#2     3  5.0  6.0  100.0  200.0
13#3     4  7.0  8.0  300.0  400.0
14#4     5  NaN  NaN  500.0  600.0
15
16# 各カラムの値について、df2側の値を優先させる
17for c in df1.columns:
18    if c not in KEY:
19        dfm.loc[dfm[c].isna(), c] = dfm.loc[dfm[c].isna(), c+'_1']
20        dfm[c] = dfm[c].astype(df1[c].dtype) # 型を元データに合わせる
21
22df = dfm[df1.columns]
23print(df)
24#   Date    A    B
25#0     1    1    2
26#1     2    3    4
27#2     3  100  200
28#3     4  300  400
29#4     5  500  600

投稿2020/10/28 07:15

can110

総合スコア38266

自己解決

自己解決しました。

Python
1#重複削除して連結
2def concat_duplicates(df1,df2,dup_col):
3    concat_df= pd.concat([df1,df2])
4    dup_df=concat_df.drop_duplicates([dup_col])
5    return dup_df
6
7#df1にあるdf2の項目を削除
8for i in range(len(df2)):
9    df1 = df1.drop(index=df1[df1['Date'] == df2['Date'].iloc[i]].index)
10
11#df1とdf2を連結して念のため重複削除
12df3=concat_duplicates(df1,df2,'Date')
13