pandas:階層型インデックスのあるデータフレームの計算

環境：Python3.6 win10

初学者です。階層型インデックスのあるデータフレームと、もう1つのデータフレームの２つを用いて計算したいと考えています。
具体的には、

data1(階層インデックスあり)

id1	id2	value1	value2	value3	value4
A	a	1	5	3	40
A	b	5	2	12	4
B	a	6	21	3	4
B	b	1	2	0	14
B	c	7	12	3	4
C	a	1	22	7	43
C	b	8	2	3	89
D	a	2	2	5	4
...
Z	a	2	3	4	5
Z	b	9	8	7	6

data2(data1と共通のid1のみ存在)

id1	value1	value2	value3	value4
A	2	53	4	42
B	36	2	33	14
C	12	2	37	3
D	2	61	5	8
…
Z	0	1	1	3

があったときに,「data1の値からdata２の値を引く。ただし計算は、id１に紐づけて行う(id2の数に関わらず、id１が同じ行は同じものとみなす)」という作業をしたいと考えております。
以下のような計算結果が欲しいです。

data3

id1	id2	value1	value2	value3	value4
A	a	1-2	5-53	3-4	40-42
A	b	5-2	2-53	12-4	4-42
B	a	6-36	21-2	3-33	4-14
B	b	1-36	2-2	0-33	14-14
B	c	7-36	12-2	3-33	4-14
C	a	1-12	22-2	7-37	43-3
C	b	8-12	2-2	3-37	89-3
D	a	2-2	2-61	5-5	4-8
...
Z	a	2-0	3-1	4-1	5-3
Z	b	9-0	8-1	7-1	6-3

付帯情報
0. data1とdata2のカラムの数(valueの数)は共通です。

data1:id1(A,B,C…)あたりのid2の数は一定ではありません。また実際には、id1はアルファベットで表現できないほど沢山あります。
data2:id1の数はdata1と共通です。

Python3
1data2.sub(data1)

といった方法を使うのかとも考えたのですが、いまいちよくわからない状況です。pandasかNumpyであればどのような方法でも構いません。よろしくお願いいたします。

行動規範の内容に同意します

回答1件

ベストアンサー

とりあえず２通り書いてみました。

もう少しスマートな方法があるかもしれませんが・・。

下記のようなデータにおいて

Python
1import pandas as pd
2idx = pd.MultiIndex.from_arrays([['A','A','B','B','B','C','C','D'],
3                                 ['a','b','a','b','c','a','b','a']])
4df1 = pd.DataFrame([[1,5,3,40],
5                    [5,2,12,4],
6                    [6,21,3,4],
7                    [1,2,0,14],
8                    [7,12,3,4],
9                    [1,22,7,43],
10                    [8,2,3,89],
11                    [2,2,5,4]], 
12                   index=idx,
13                   columns=['value1','value2','value3','value4'])
14
15df2 = pd.DataFrame([[2,53,4,42],
16                    [36,2,33,14],
17                    [12,2,37,3],
18                    [2,61,5,8]],
19                   index=['A','B','C','D'],
20                   columns=['value1','value2','value3','value4'])

(1) ループを使う

Python
1for idx, row in df1.iterrows():
2    df1.loc[idx] = row.sub(df2.loc[idx[0]])
3print(df1)

(2) Apply()を使う

Python
1df1 = df1.apply(lambda d:d.sub(df2.loc[d.name[0]]), axis=1)
2print(df1)

投稿2018/01/05 17:04

magichan

総合スコア15898

ak_miyamoto

2018/01/08 00:47

うまくいきました！ありがとうございます。また、クリップして下さった方もありがとうございました。

行動規範の内容に同意します

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう！

pandas:階層型インデックスのあるデータフレームの計算

関連した質問

id1	id2	value1	value2	value3	value4
A	a	1	5	3	40
A	b	5	2	12	4
B	a	6	21	3	4
B	b	1	2	0	14
B	c	7	12	3	4
C	a	1	22	7	43
C	b	8	2	3	89
D	a	2	2	5	4
...
Z	a	2	3	4	5
Z	b	9	8	7	6

id1	id2	value1	value2	value3	value4
A	a	1	5	3	40
A	b	5	2	12	4
B	a	6	21	3	4
B	b	1	2	0	14
B	c	7	12	3	4
C	a	1	22	7	43
C	b	8	2	3	89
D	a	2	2	5	4
...
Z	a	2	3	4	5
Z	b	9	8	7	6

id1	id2	value1	value2	value3	value4
A	a	1	5	3	40
A	b	5	2	12	4
B	a	6	21	3	4
B	b	1	2	0	14
B	c	7	12	3	4
C	a	1	22	7	43
C	b	8	2	3	89
D	a	2	2	5	4
...
Z	a	2	3	4	5
Z	b	9	8	7	6