【質問】Pandasのデータフレームの結合について

Question

【質問】Pandasのデータフレームの結合について
pythonでpandasを用いてデータを結合させます。
その際に、特定列が一致しているもののみ結合させます。
以下にコードを示します。しかし、この時に課題になるのが、
結合を繰り返す場合、結合する毎に列が増えてしまいます。
下記例では、業種_xと業種_yが出来てしまいます。
なんとか業種1行に値を集約する方法はないでしょうか。
(値が重複した場合は、上書きされて構いません)


【コード】
df10 = pd.DataFrame([
  [3320,"東1", 2, 3,"aaa"],
  [6701,"東2", 11, 12,],
  [4536,"M", 11, 12,],
  [7777,"M", 5, 10,]])
df10.columns=["番号","市場","前日比","利益","業種"]
df12 = pd.DataFrame([
  [3320,"電気"],
  [6701,"石油"],
  [4536,"通信"],
  [7777,]])
df12.columns=["番号","業種"]
print(pd.merge(df10,df12,on="code"))

【出力】
   番号  市場  前日比  利益  業種_x  業種_y
0  6701  東2   11  12  None    石油
1  4536   M   11  12  None    通信
2  7777   M    5  10  None  None

Accepted Answer

列名が重複した場合、左側の DataFrame の列を残すとして

1. `suffixes=("", "_y")` で重複する列は右側の DataFrame のほうに _y をつける
2. 結合したあとに _y で終わる列を削除する

とすればいいのではないでしょうか。

```python
import pandas as pd

df1 = pd.DataFrame(
    [
        [3320, "東1", 2, 3, "aaa"],
        [6701, "東2", 11, 12,],
        [4536, "M", 11, 12,],
        [7777, "M", 5, 10,],
    ],
    columns=["番号", "市場", "前日比", "利益", "業種"],
)

df2 = pd.DataFrame(
    [[3320, "電気"], [6701, "石油"], [4536, "通信"], [7777,]], columns=["番号", "業種"]
)

merged = pd.merge(df1, df2, on="番号", suffixes=("", "_y"))
merged["業種"].update(merged["業種_y"])

# _y で終わる列を削除
merged = merged[[x for x in merged.columns if not x.endswith("_y")]]
print(merged)
```

> suffixeslist-like, default is (“_x”, “_y”)
A length-2 sequence where each element is optionally a string indicating the suffix to add to overlapping column names in left and right respectively. Pass a value of None instead of a string to indicate that the column name from left or right should be left as-is, with no suffix. At least one of the values must not be None.

* [pandas.DataFrame.merge — pandas 1.1.4 documentation](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.merge.html)

* [pandas - DataFrame を結合する pandas.merge の使い方 ](https://pystyle.info/pandas-merge/#outline__2_4)

関連した質問