Pandasでほかの行のデータを関数の引数にとる

現在、以下のようなにデータについて分析を行っています。

日付(DatetimeIndex)	商品名	売上数量	廃棄数
2017-01-01	...	32	1
2017-01-02	...	37	0
2017-01-03	...	39	0
2017-01-04	...	31	0
2017-01-05	...	27	0
2017-01-06	...	42	0
2017-01-07	...	22	2
2017-01-08	...	45	1
...	...	...	...

このデータの列の情報を使用して、新しく計算した列（例：在庫数）を付け加えようと考えています。

このとき計算に必要な情報は、(1日前の在庫 + 2日前の発注数) - (廃棄数 + 売上数) のようになっています。
そのためこのデータフレームに、以上のデータを引数として関数を作成すると、同じ行からだけではなく、異なる行のデータも取得して計算させなければなりません。

Excelであれば簡単に計算できるんですが、PandasやPythonの機能に異なる行の要素を引数にとり関数を適用させる方法はあるんでしょうか。

よろしくお願いします。

イメージとしてはまず手元に以下の情報があります。

日付(DatetimeIndex)	商品名	売上数量	廃棄数	発注数	在庫数
2017-01-01	...	32	1	90	70
2017-01-02	...	37	0	0	37
2017-01-03	...	39	0	0	...
2017-01-04	...	31	0	90	...
2017-01-05	...	18	0	0	...
2017-01-06	...	42	0	0	...
2017-01-07	...	22	2	120	...
2017-01-08	...	15	1	0	...
...	...	...	...

この在庫数の列の3行目から計算を始めるイメージです。

行動規範の内容に同意します

回答2件

ベストアンサー

他の行のデータを使用するのは R.Shigemoriさんの書かれている通り,shift() を利用するのが良いかと思います。

今回のケースで面倒なのは、自分自身（'発注数'）の前の日の値を使用して計算をする必要があり、一括で計算することはできず、上から順番に計算をしなければならないことです。

この様な場合はループを使って

Python
1for idx,row in df.iloc[2:].iterrows():
2    df.loc[idx, '在庫数'] = df.shift(1).loc[idx, '在庫数'] + df.shift(2).loc[idx, '発注数'] - row['売上数量'] - row['廃棄数']

のように書くことになると思います。

一応・・。
宗教上の理由などで、どうしてもループを使って書きたくないという場合は、
先に前日との差分データを作成しておき cumsum() を使うことで

Python
1diff = df['発注数'].shift(2) - df['廃棄数'] - df['売上数量']
2diff[0] = df['在庫数'].iloc[0]
3diff[1] = df['在庫数'].iloc[1] - df['在庫数'].iloc[0]
4df['発注数'] = diff.cumsum().astype('int'))

のようにも書くことが出来ます。

投稿2018/07/13 00:24

magichan

総合スコア15898

pinocookie

2018/07/13 04:32

回答ありがとうございます! 手元にデータがないので適当に自作したデータで確かめたところ、しっかりと計算式通りに計算できていることが確認できました。ありがとうございました！

行動規範の内容に同意します

shiftメソッドを活用するといいかと思います。コードは以下です。

python
1df['在庫'].shift(1)+df['発注'].shift(2)-df['廃棄']-df['売上']

考え方は、shiftを使って1日前の在庫データを当日の行にずらして計算に使うというものです。locを使って過去データを参照する方法もあるように思いますが、こちらのほうが簡単と思います

投稿2018/07/12 23:22

R.Shigemori

総合スコア3376

magichan

2018/07/12 23:48 編集

実際に動作させてみると判ると思いますが。計算する段階で、1/3 移行の'在庫数'列のデータは NaN なので 1/4 移行の在庫数はこの式では計算できないと思いますよ。

R.Shigemori

2018/07/13 04:02

ですね。過去データがあるものと思い込んでいました。とすると、for文で繰り返し処理にするのが有力候補ですね。個人的にはfor文が嫌いなので再帰処理を応用した関数を作ると思います。

行動規範の内容に同意します

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう！

Pandasでほかの行のデータを関数の引数にとる

関連した質問