【質問】Pandasのデータフレームの結合について

【質問】Pandasのデータフレームの結合について
pythonでpandasを用いてデータを結合させます。
その際に、特定列が一致しているもののみ結合させます。
以下にコードを示します。しかし、この時に課題になるのが、
結合を繰り返す場合、結合する毎に列が増えてしまいます。
下記例では、業種_xと業種_yが出来てしまいます。
なんとか業種1行に値を集約する方法はないでしょうか。
(値が重複した場合は、上書きされて構いません)

【コード】
df10 = pd.DataFrame([
[3320,"東1", 2, 3,"aaa"],
[6701,"東2", 11, 12,],
[4536,"M", 11, 12,],
[7777,"M", 5, 10,]])
df10.columns=["番号","市場","前日比","利益","業種"]
df12 = pd.DataFrame([
[3320,"電気"],
[6701,"石油"],
[4536,"通信"],
[7777,]])
df12.columns=["番号","業種"]
print(pd.merge(df10,df12,on="code"))

【出力】
番号市場前日比利益業種_x 業種_y
0 6701 東2 11 12 None 石油
1 4536 M 11 12 None 通信
2 7777 M 5 10 None None

technocore

2020/12/07 11:23

＞pd.merge(df10,df12,on="code") そもそも両方のDataFrameにcodeというデータ列が無いので mergeできません。

行動規範の内容に同意します

回答1件

ベストアンサー

列名が重複した場合、左側の DataFrame の列を残すとして

suffixes=("", "_y") で重複する列は右側の DataFrame のほうに _y をつける
結合したあとに _y で終わる列を削除する

とすればいいのではないでしょうか。

python
1import pandas as pd
2
3df1 = pd.DataFrame(
4    [
5        [3320, "東1", 2, 3, "aaa"],
6        [6701, "東2", 11, 12,],
7        [4536, "M", 11, 12,],
8        [7777, "M", 5, 10,],
9    ],
10    columns=["番号", "市場", "前日比", "利益", "業種"],
11)
12
13df2 = pd.DataFrame(
14    [[3320, "電気"], [6701, "石油"], [4536, "通信"], [7777,]], columns=["番号", "業種"]
15)
16
17merged = pd.merge(df1, df2, on="番号", suffixes=("", "_y"))
18merged["業種"].update(merged["業種_y"])
19
20# _y で終わる列を削除
21merged = merged[[x for x in merged.columns if not x.endswith("_y")]]
22print(merged)

suffixeslist-like, default is (“_x”, “_y”)

A length-2 sequence where each element is optionally a string indicating the suffix to add to overlapping column names in left and right respectively. Pass a value of None instead of a string to indicate that the column name from left or right should be left as-is, with no suffix. At least one of the values must not be None.

投稿2020/12/07 11:24

編集2020/12/08 13:18

tiitoi

総合スコア21956

abcdefg66adf

2020/12/08 11:10

回答ありがとうございます。ご指摘のコードを実行すると以下となりますが、いかがでしょうか。マージしたときに、df12の業種が、業種_yとして追加されますが、業種_yを削除しているため、結局マージ前と変わらない結果となる認識ですが、いかがでしょうか。番号市場前日比利益業種 0 3320 東1 2 3 aaa 1 6701 東2 11 12 None 2 4536 M 11 12 None 3 7777 M 5 10 None