質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.35%
Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

pandas

Pandasは、PythonでRにおけるデータフレームに似た型を持たせることができるライブラリです。 行列計算の負担が大幅に軽減されるため、Rで行っていた集計作業をPythonでも比較的簡単に行えます。 データ構造を変更したりデータ分析したりするときにも便利です。

Q&A

解決済

2回答

566閲覧

PandasのDataFrameのマージ方法について

swdtks190

総合スコア20

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

pandas

Pandasは、PythonでRにおけるデータフレームに似た型を持たせることができるライブラリです。 行列計算の負担が大幅に軽減されるため、Rで行っていた集計作業をPythonでも比較的簡単に行えます。 データ構造を変更したりデータ分析したりするときにも便利です。

0グッド

0クリップ

投稿2020/10/28 06:28

以下のような2つのDataFrameがあったとして、
上のDataFrameをdf1、下をdf2としたときでのマージ方法について相談があります。

DateAB
2010/1/112
2010/1/234
2010/1/356
2010/1/478
DateAB
2010/1/3100200
2010/1/4300400
2010/1/5500600

上2つのDataFrameを、以下のようにしたい場合、どのようなコードを記述すればよろしいでしょうか?
Date列を主キーとして、両方のDataFrameにある場合はdf2を優先し、df2に無いものだけをdf1から取得するイメージです。

DateAB
2010/1/112
2010/1/234
2010/1/3100200
2010/1/4300400
2010/1/5500600

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答2

0

ちょっと面倒くさいですが、以下のような感じでできます。

Python

1import pandas as pd 2 3df1 = pd.DataFrame({'Date':[1,2,3,4], 'A':[1,3,5,7], 'B':[2,4,6,8]}) 4df2 = pd.DataFrame({'Date':[3,4,5], 'A':[100,300,500], 'B':[200,400,600]}) 5 6KEY = ['Date'] 7dfm = pd.merge(df1, df2, on=KEY, how='outer', suffixes=['_1', '']) 8print(dfm) 9# Date A_1 B_1 A B 10#0 1 1.0 2.0 NaN NaN 11#1 2 3.0 4.0 NaN NaN 12#2 3 5.0 6.0 100.0 200.0 13#3 4 7.0 8.0 300.0 400.0 14#4 5 NaN NaN 500.0 600.0 15 16# 各カラムの値について、df2側の値を優先させる 17for c in df1.columns: 18 if c not in KEY: 19 dfm.loc[dfm[c].isna(), c] = dfm.loc[dfm[c].isna(), c+'_1'] 20 dfm[c] = dfm[c].astype(df1[c].dtype) # 型を元データに合わせる 21 22df = dfm[df1.columns] 23print(df) 24# Date A B 25#0 1 1 2 26#1 2 3 4 27#2 3 100 200 28#3 4 300 400 29#4 5 500 600

投稿2020/10/28 07:15

can110

総合スコア38341

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

0

自己解決

自己解決しました。

Python

1#重複削除して連結 2def concat_duplicates(df1,df2,dup_col): 3 concat_df= pd.concat([df1,df2]) 4 dup_df=concat_df.drop_duplicates([dup_col]) 5 return dup_df 6 7#df1にあるdf2の項目を削除 8for i in range(len(df2)): 9 df1 = df1.drop(index=df1[df1['Date'] == df2['Date'].iloc[i]].index) 10 11#df1とdf2を連結して念のため重複削除 12df3=concat_duplicates(df1,df2,'Date') 13

投稿2020/10/28 07:25

編集2020/10/28 07:43
swdtks190

総合スコア20

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

can110

2020/10/28 07:36

そのままでは実行できません。 concat_duplicates関数?のコードも記載ください。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.35%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問