質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

pandas

Pandasは、PythonでRにおけるデータフレームに似た型を持たせることができるライブラリです。 行列計算の負担が大幅に軽減されるため、Rで行っていた集計作業をPythonでも比較的簡単に行えます。 データ構造を変更したりデータ分析したりするときにも便利です。

Q&A

解決済

1回答

1041閲覧

Pandas結合でデータベースの復元

MagMag

総合スコア80

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

pandas

Pandasは、PythonでRにおけるデータフレームに似た型を持たせることができるライブラリです。 行列計算の負担が大幅に軽減されるため、Rで行っていた集計作業をPythonでも比較的簡単に行えます。 データ構造を変更したりデータ分析したりするときにも便利です。

0グッド

1クリップ

投稿2019/01/11 11:58

編集2019/01/11 12:18

Python・Pandasを用いて、同一データベースから抽出された複数のCSVファイルを統合して、元のデータベースを可能な限り復元しようとしています。

※同一データベースからSQLのSELECTで抽出された複数CSVを寄せ集めるイメージです。そのため、同一セルの値は各ファイルで同じです(以下の例で、A1はどのファイルでも同一、もしくはnan)。また、結びつけに使えるIDも振られています。

具体例として、以下のようにCSVファイル1とCSVファイル2とCSVファイル3を統合したいのですが、どのメソッドを使ったらいいでしょうか?

for文でMergeやConcatなどを書いてみたのですが、どうしても列や行が増えたりNanの処理ができず、うまくいきませんでした。

############元ファイル########
CSVファイル1
|ID|A|B|C|D|
|:--|:--:|-:|
|1|A1|B1|C1|D1|
|2|A2|B2|C2|D2|
|3|A3|B3|C3|D3|

CSVファイル2
|ID|A|B|E|F|
|:--|:--:|-:
|3|A3|B3|E3|F3|
|4|A4|B4|E4|F4|

CSVファイル3
|ID|F|G|
|:--|:--
|1|F1|G1|

###########上の3つのファイルから以下を作成#########

CSVファイル(1+2)
※行も列も重複をなくしたい
|ID|A|B|C|D|E|F|
|:--|:--:|-:|
|1|A1|B1|C1|D1|Nan|Nan|
|2|A2|B2|C2|D2|Nan|Nan|
|3|A3|B3|C3|D3|E3|F3|
|4|A4|B4|Nan|Nan|E4|F4|

CSVファイル(1+2+3)
※行も列も重複をなくしたい
||A|B|C|D|E|F|G|
|:--|:--:|-:|
|1|A1|B1|C1|D1|Nan|F1|G1|
|2|A2|B2|C2|D2|Nan|Nan|Nan|
|3|A3|B3|C3|D3|E3|F3|Nan|
|4|A4|B4|Nan|Nan|E4|F4|Nan|

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

can110

2019/01/11 12:11 編集

(1+2)の例は正しいでしょうか?E4、F4はどこへ行きましたか?
MagMag

2019/01/11 12:19

失礼しました。修正しました。
guest

回答1

0

ベストアンサー

以下でどうでしょう。
参考:Python pandas 図でみる データ連結 / 結合処理
How to merge overlapping columns

Python

1import pandas as pd 2 3df1 = pd.DataFrame({'A':['A1','A2','A3'],'B':['B1','B2','B3'],'C':['C1','C2','C3'],'D':['D1','D2','D3']},index=[1,2,3]) 4df2 = pd.DataFrame({'A':['A3','A4'],'B':['B3','B4'],'E':['E3','E4'],'F':['F3','F4']},index=[1,2]) 5df3 = pd.DataFrame({'F':['F1'],'G':['G1']},index=[1]) 6 7# A,B列で外部結合 8df12 = pd.merge(df1, df2, on=['A','B'], how='outer') 9print(df12) 10 11# インデックスで結合し、不要なdf3の「index」列を削除 12df123 = df12.combine_first(df3.reset_index()).drop(['index'],axis=1) 13print(df123) 14""" 15 A B C D E F G 160 A1 B1 C1 D1 NaN F1 G1 171 A2 B2 C2 D2 NaN NaN NaN 182 A3 B3 C3 D3 E3 F3 NaN 193 A4 B4 NaN NaN E4 F4 NaN 20"""

投稿2019/01/11 12:43

can110

総合スコア38260

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

MagMag

2019/01/14 02:41

combine_firstを使って実現できました。ありがとうございました!
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問