Python（Pandas）で条件分岐の合理的な書き方

Pandasで以下のデータフレームが存在する場合、一度に異なる複数の条件分岐を処理する関数を作りたいと考えています。

python
1#  元データ
2df = pd.DataFrame({'A': ['abc', 'bcd', 'cde', 'def'], 'B': [100, 200, 400, 500], 'C': ['Y', 'N', 'PPP', 'Y']},
3                  index = [0, 1, 2, 3])

作りたい条件分岐は以下の通りです。
・列Aに"c"が含まれる場合、列Dに1、含まれない場合は列Dに0を
・列Bが300以下の場合、列Eに0を、300より大きい場合に列Eに1を
・列Cが"Y"のとき列Fに1、列Cが"N"のとき列Fに2、列Cがその他の値のとき列Fに3を

期待する結果は下記表になります。

A	B	C	D	E	F
abc	100	Y	1	0	1
bcd	200	N	1	0	2
cde	400	PPP	1	1	3
def	500	Y	0	1	1

これまで条件分岐を処理する際は、以下のようにひとつづつ処理しておりました。

python
1def if_else01(x):
2    if x == "Y":
3        return 1
4    elif x == "N":
5        return 2
6    else:
7        return 3
8
9df['F'] = df['C'].apply(if_else01)
10
11def if_else02(x):
12    if x <= 300:
13        return 0
14    else:
15        return 1
16
17df['E'] = df['B'].apply(if_else02)
18
19def if_else03(x):
20    if "c" in x:
21        return 1
22    else:
23        return 0
24
25df['D'] = df['A'].apply(if_else03)

プログラムの記述量を減らす目的で、上記処理を一つのdefにまとめたいのですが、合理的な記述方法をご教授いただければ幸いです。
よろしくお願いいたします。

行動規範の内容に同意します

回答2件

ベストアンサー

合理的な記述かどうかはわかりませんが、単に"記述量を減らす目的"なのであれば
特に関数をまとめなくても

Python
1df['D'] =(df['A'].str.contains('c')).astype(int)
2df['E'] =(df['B']>300).astype(int)
3df['F'] =df['C'].map({'Y':1, 'N':2}).fillna(3).astype(int)

で良いのではないでしょうか

投稿2019/06/04 07:41

magichan

総合スコア15898

smbdofgcccpl

2019/06/08 13:08

回答有り難うございます。非常に参考になりました！

行動規範の内容に同意します

numpyを使っていいのならば、下のように書けます。

python
1import numpy as np
2
3df['D'] = np.where(df['A'].str.contains('c'), 1, 0)
4df['E'] = np.where(df['B'] > 300, 1, 0)
5df['F'] = np.where(df['C'] == 'Y', 1, np.where(df['C'] == 'N', 2, 3))