pythonで、2つのexcelファイルの差分（要素レベル）を抽出したい。

Question

解決したいこと：
下記のような、2つのexcelファイルの差分を要素レベルで抽出し、変更の行、列を
｛行数、列数｝のような形でリストかデータフレームに格納したい
（あとで変更した要素の個所をopenpyxlなどで色を塗るため）

テーブル：
変更前excel例：
フェーズ	作業項目	担当者	計画工数	計画開始日	計画終了日	進捗率
要件定義	顧客A打合せ	tanaka	3	2018/5/30	2018/6/1	100
基本設計	A機能基本設計	satou	15	2018/6/1	2018/6/4	20
基本設計	B機能基本、設計	yamada	12	2018/6/2	2018/6/8	30

変更後excel例：
フェーズ	作業項目	担当者	計画工数	計画開始日	計画終了日	進捗率
要件定義	顧客A打合せ	tanaka	3	2018/5/30	2018/6/1	100
基本設計	A機能基本設計	satou	15	2018/6/1	2018/6/4	100
基本設計	C機能基本設計	yamada	18	2018/6/5	2018/6/12	10

やってみたこと：
下記のようなコードを描くと、行単位での抽出は可能でした。

import pandas as pd

df1 = pd.read_excel("before.xlsx")
df2 = pd.read_excel("after.xlsx")

df1['比較用の列'] = df1[['フェーズ', '作業項目', '担当者', '計画工数', '計画開始日', '計画終了日', '進捗率']].apply(lambda x: '{}_{}_{}_{}_{}_{}_{}'.format(x[0], x[1], x[2], x[3], x[4], x[5], x[6]), axis=1)
df2['比較用の列'] = df2[['フェーズ', '作業項目', '担当者', '計画工数', '計画開始日', '計画終了日', '進捗率']].apply(lambda x: '{}_{}_{}_{}_{}_{}_{}'.format(x[0], x[1], x[2], x[3], x[4], x[5], x[6]), axis=1)

df2[~df2['比較用の列'].isin(df1['比較用の列'])]

しかし、これだと変更後をベースにした行単位での差異は抽出可能ですが、
出来れば要素単位で抽出したいです。。
基本的な質問かもしれなくて申し訳ありませんが、ご教示いただけないでしょうか。

Accepted Answer

df1とdf2から比較したい行を抽出して比較演算をすると、全要素の比較結果がTrue,Falseの形式で返ってきます。
```python3
df1.iloc[抽出したい行番号,:]==df2.iloc[対応する行番号,:]
```

df1とdf2が完全に対応関係が一致しているのであれば、単純にdf1==df2とすると比較結果のDataFrameが得られるので、これを使ったほうが便利かもしれません

Answer

書いてみました。

```python
import io
import pandas as pd

# 読み込み処理
data1 = """
フェーズ    作業項目    担当者    計画工数    計画開始日    計画終了日    進捗率
要件定義    顧客A打合せ    tanaka    3    2018/5/30    2018/6/1    100
基本設計    A機能基本設計    satou    15    2018/6/1    2018/6/4    20
基本設計    B機能基本、設計    yamada    12    2018/6/2    2018/6/8    30
"""

data2 = """
フェーズ    作業項目    担当者    計画工数    計画開始日    計画終了日    進捗率
要件定義    顧客A打合せ    tanaka    3    2018/5/30    2018/6/1    100
基本設計    A機能基本設計    satou    15    2018/6/1    2018/6/4    100
基本設計    C機能基本設計    yamada    18    2018/6/5    2018/6/12    10
"""

df1 = pd.read_table(io.StringIO(data1), sep="\s+")
df2 = pd.read_table(io.StringIO(data2), sep="\s+")

print(df1)
print(df2)
""" =>
   フェーズ      作業項目     担当者  計画工数      計画開始日     計画終了日  進捗率
0  要件定義    顧客A打合せ  tanaka     3  2018/5/30  2018/6/1  100
1  基本設計   A機能基本設計   satou    15   2018/6/1  2018/6/4   20
2  基本設計  B機能基本、設計  yamada    12   2018/6/2  2018/6/8   30
   フェーズ     作業項目     担当者  計画工数      計画開始日      計画終了日  進捗率
0  要件定義   顧客A打合せ  tanaka     3  2018/5/30   2018/6/1  100
1  基本設計  A機能基本設計   satou    15   2018/6/1   2018/6/4  100
2  基本設計  C機能基本設計  yamada    18   2018/6/5  2018/6/12   10
"""

# 違う場所のTFのdfを作る
change_tf_df = df1 != df2
print(change_tf_df)
""" =>
0  False  False  False  False  False  False  False
1  False  False  False  False  False  False   True
2  False   True  False   True   True   True   True
"""

# とりあえず愚直にfor（他にいいやり方があったら誰か教えてくだい・・・）
lst = []
for i, row in change_tf_df.iterrows():
    for j, (_, v) in enumerate(row.iteritems()):
        if v:
            lst.append((i,j))
print(lst)
""" =>
[(1, 6), (2, 1), (2, 3), (2, 4), (2, 5), (2, 6)]
"""

```

Answer

```python
import pandas as pd


df01=pd.read_excel('before.xlsx',header=None)
df02=pd.read_excel('before.xlsx',header=None)

l=df01.values.tolist()
r=df01.T.values.tolist()


from pprint import pprint
pprint(l),print()
pprint(r)
```

#
間違えました。
データフレームだと、

```
import pandas as pd

df01=pd.read_excel('before.xlsx',header=None)
df02=pd.read_excel('before.xlsx',header=None)

```