Python pandas:列同士の計算方法について

Pythonでpandasによるデータ分析処理を進めていて、列同士の演算の仕方について教えてもらえないでしょうか。

import datetime
import pandas as pd

df1 = pd.DataFrame({'date': ["2019-03-04", "2019-03-07", "2019-03-14"], 
                    'diff_days': [4, 7, 11]})

print(df1)

# """結果"""
#            date  diff_days
# 0	2019-03-04          4
# 1	2019-03-07          7
# 2	2019-03-14         11

例えばこのようなデータフレームがあったときに、新たに１列追加して、
date列にdiff_daysの値分の日数を後ろにずらした日を取得したいとします。

リスト内方表記を使えば下記のように書けるのですが、できればmap()などでスマートかつリスト内方表記を避けて書けるように
なりたいため、そういった方法を教えてもらいたいと思います。

## リスト内方表記ではzip()を使ってこのようにかけるが、コードが読みづらくなる懸念がある
df1['after_date'] = [datetime.datetime.strptime(x, '%Y-%m-%d') + datetime.timedelta(y) for x, y in zip(df1['date'], df1['diff_days'])]
df1

# """結果"""
#             date  diff_days  after_date
# 0     2019-03-04          4  2019-03-08
# 1     2019-03-07          7  2019-03-14
# 2     2019-03-14         11  2019-03-25

ちなみに、今回は複数列の計算なので若干複雑になっているのですが、単列を使った計算であれば下記のようにリスト内方表記を避けて書けます。参考までに記載します。

## date列の値を使って、一律で1日後ろにずらす
df1['1day_after_date'] = df1['date'].map(lambda x: datetime.datetime.strptime(x, '%Y-%m-%d') + datetime.timedelta(1))
df1

# """結果"""
#            date  diff_days  1day_after_date
# 0    2019-03-04          4       2019-03-05
# 1    2019-03-07          7       2019-03-08
# 2    2019-03-14         11       2019-03-15

よろしくお願いします。

行動規範の内容に同意します

回答2件

そもそも型が適切であれば、apply()も不要ではないかと思います。

Python
1import pandas as pd
2
3df1 = pd.DataFrame({'date': ['2019-3-4','2019-3-7','2019-3-14'],
4                    'diff_days': [4,7,11]})
5# date列は datetime型、 diff_days列は timedelta型
6df1['date'] = pd.to_datetime(df1['date'])
7df1['diff_days'] = pd.to_timedelta(df1['diff_days'], unit='d')
8
9df1['affter_date'] = df1['date'] + df1['diff_days']
10#        date diff_days affter_date
11#0 2019-03-04    4 days  2019-03-08
12#1 2019-03-07    7 days  2019-03-14
13#2 2019-03-14   11 days  2019-03-25

投稿2019/09/09 07:41

magichan

総合スコア15898

omixin

2019/09/09 09:31

回答ありがとうございます。質問の意図として、今回の計算だけではなく、今後複雑な処理にも耐えられるような方法論が知りたかったため、関数を適用させていける方法としてapplyの方をベストアンサーとさせていただきます。確かに今回のケースに限っては、型が適切であれば単純な足し算で解決できますね。

行動規範の内容に同意します

ベストアンサー

こんな感じでapplyを使って書けば良いです。

python
1import pandas as pd
2import datetime
3
4df1 = pd.DataFrame({'date': ["2019-03-04", "2019-03-07", "2019-03-14"], 
5                    'diff_days': [4, 7, 11]})
6df1["date"] = pd.to_datetime(df1["date"])  # 予め日付時刻型にしておかないと扱いづらいので
7
8def f(row):
9    return row["date"] +  datetime.timedelta(days=row["diff_days"])
10
11result = df1.apply(f, axis=1)
12print(result)  # 必要に応じて適宜列に追加してください
13