pandasを使った２つのDataFrameの比較処理について

Question

**【実現したいこと】**
２つのDataframeの値を比較し、ある条件に一致する行だけを対象に特定列の値をアップデートしたい。

具体的には以下の様な事を実現したい。

```
以下の様な2つのデータフレーム「pd_A,pd_B」があるものとする。

---------------------------
データフレーム「pd_A」の内容
 ※col1,col2,col3は列名
---------------------------
  col1　　col2　　col3
0　A001 value001 False 
1　A001 value002 False 
2　A001 value003 False 
3　A002 value001 False 
4　A002 value002 False 
5　A002 value003 False 

--------------------------
データフレーム「pd_B」の内容
※col1,col2は列名
--------------------------
   col1　　col2
0　A001 value001
1　A001 value002
2　A002 value001
3　A002 value003

```

上記2つのデータフレームpd_A,pd_Bにおいて、pd_Bの各行（col1,col2の組み合わせ)と一致するpd_Aの行(col1,col2の組み合わせ)のcol3の値をFalse→Trueに更新したい。

```
期待する結果
  col1　　col2　　col3
0　A001 value001 True   →pd_Bに存在する行だけcol3の値をFalse→Trueに更新
1　A001 value002 True 　→同上
2　A001 value003 False 
3　A002 value001 True 　→同上
4　A002 value002 False 
5　A002 value003 True 　→同上
```
当方、pandas初心者でいろいろ調べてみましたがいまいち実現方法がわからず、有識者のご教授を頂きたいと思います。

宜しくお願い致します。

＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝
環境情報
OS:windows
pandas： 0.23.4
＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝

Accepted Answer

素直にループで。
```python
import io
import pandas as pd

d1 = """
  col1 col2 col3
0 A001 value001 False 
1 A001 value002 False 
2 A001 value003 False 
3 A002 value001 False 
4 A002 value002 False 
5 A002 value003 False 
"""

d2 = """
   col1 col2
0 A001 value001
1 A001 value002
2 A002 value001
3 A002 value003
"""

df_a = pd.read_table(io.StringIO(d1), sep="\s+", engine="python")
df_b = pd.read_table(io.StringIO(d2), sep="\s+", engine="python")

c = []
for i, row_a in df_a[["col1", "col2"]].iterrows():
    for j, row_b in df_b.iterrows():
        if (row_a == row_b).all():
            c.append(True)
            break
    else:
        c.append(False)
df_a["col3"] = c
print(df_a)
""" =>
   col1      col2   col3
0  A001  value001   True
1  A001  value002   True
2  A001  value003  False
3  A002  value001   True
4  A002  value002  False
5  A002  value003   True
"""

```

Answer

もっと良い方法ありそうだけど・・。
とりあえず思いついた方法を２つほど。

１. ``DataFrame.update()``使う方法

```Python
import pandas as pd

pd_A = pd.DataFrame(
    [['A001','value001',False],
     ['A001','value002',False],
     ['A001','value003',False],
     ['A002','value001',False],
     ['A002','value002',False],
     ['A002','value003',False]],
    columns=['col1','col2','col3'])

pd_B = pd.DataFrame(
    [['A001','value001'],
     ['A001','value002'],
     ['A002','value001'],
     ['A002','value003']],
    columns=['col1','col2'])

pd_A = pd_A.set_index(['col1','col2'])
pd_B = pd_B.set_index(['col1','col2'])
pd_A.update(pd_B.assign(col3=True))
pd_A = pd_A.reset_index()
print(pd_A)
#   col1      col2   col3
#0  A001  value001   True
#1  A001  value002   True
#2  A001  value003  False
#3  A002  value001   True
#4  A002  value002  False
#5  A002  value003   True
```

２. ``DataFrame.merge()``の``indicator``を使う方法

```Python
import pandas as pd

pd_A = pd.DataFrame(
    [['A001','value001',False],
     ['A001','value002',False],
     ['A001','value003',False],
     ['A002','value001',False],
     ['A002','value002',False],
     ['A002','value003',False]],
    columns=['col1','col2','col3'])

pd_B = pd.DataFrame(
    [['A001','value001'],
     ['A001','value002'],
     ['A002','value001'],
     ['A002','value003']],
    columns=['col1','col2'])

pd_A = pd_A.merge(pd_B, on=['col1','col2'], how='left', indicator=True)
pd_A['col3'] = pd_A['_merge'] == 'both'
pd_A = pd_A.drop(columns='_merge')
print(pd_A)
#   col1      col2   col3
#0  A001  value001   True
#1  A001  value002   True
#2  A001  value003  False
#3  A002  value001   True
#4  A002  value002  False
#5  A002  value003   True
```

関連した質問