Pandas1.0.1のDataFrame.groupby.rolling.apply()の挙動について

前提

pandas0.25.1で実行できていたコードがpandas1.0.1で正常実行できるか確認していますが
DataFrame.groupby.rolling.apply()しているコードでKeyErrorが発生しています。

pandas1.0以降に知見ある方いましたら、アドバイスいただけると助かります。

実現したいこと

以下のような発注データに対して'Order_no'でgroupby()して前回の発注データとの営業日数の差分を
'Order_date'から算出、returnする。
※pandas0.25.1では問題なく動作していた。

	Order_no	Order_date
0	A0001	20200201
2	A0001	20200203
1	A0001	20200205
3	B0001	20200201
6	B0001	20200202
4	B0001	20200203
5	B0001	20200204
7	C0001	20200202
8	C0001	20200205
9	C0001	20200205
10	C0001	20200208
11	C0001	20200209
### 発生している問題・エラーメッセージ
pandas1.0.1
```
KeyError: 0


pandas0.25.1のFutureWarning

FutureWarning:
Currently, 'apply' passes the values as ndarrays to the applied function.
In the future, this will change to passing it as Series objects.
You need to specify 'raw=True' to keep the current behaviour,
and you can pass 'raw=False' to silence this warning
test = df.groupby(['Order_no'])['Order_date'].rolling(2).apply(calc_diff)


### 該当のソースコード

```python
import pandas as pd

dict1 = dict(Order_no=['A0001','A0001','A0001','B0001','B0001','B0001',
                       'B0001','C0001','C0001','C0001','C0001','C0001'],
             Order_date=[20200201,20200205,20200203,20200201,20200203,
                           20200204,20200202,20200202,20200205,20200205,
                           20200208,20200209])

df = pd.DataFrame(dict1).sort_values(['Order_no','Order_date'])

#関数のif文内では実際は所定カレンダーと付け合わせて営業日数の細分をreturnします
def calc_diff(d):
    d1, d2 = int(d[0]), int(d[1])
    if d1 == d2:
        return 0
    elif d1 < d2:
        return 1

diff = df.groupby(['Order_no'])['Order_date'].rolling(2).apply(calc_diff)

試したこと

groupby()を外した場合は問題なく実行できました。

グルーピングした場合に
calc_diff内のd1, d2 = int(d[0]), int(d[1])で変数に値が渡せていないようです。

FutureWarningと公式ドキュメントを参考に以下のコードも試したがダメでした。
df.groupby(['Order_no'])['Order_date'].rolling(2).apply(calc_diff,raw=True)

補足情報（FW/ツールのバージョンなど）

Python 3.7.6
pandas 1.0.1

行動規範の内容に同意します

回答1件

ベストアンサー

まず、エラーの原因ですが、pandas 1.0.0 での

https://pandas.pydata.org/pandas-docs/version/1.0.0/whatsnew/v1.0.0.html

の

Changed the default value for the raw argument in Series.rolling().apply(), DataFrame.rolling().apply(), Series.expanding().apply(), and DataFrame.expanding().apply() from None to False (GH20584)

の変更でしょうね。

この変更により、デフォルトで（raw=None ：Trueの場合と同じ挙動）データが ndarray で渡されるていがのが、デフォルト値が raw=False になったため、データが Series型で渡されているために

Python
1 d1, d2 = int(d[0]), int(d[1])

の部分でエラーとなっているようです。
データがSeries型の時に動作させるなら、単純にこの部分を

Python
1 d1, d2 = int(d.iat[0]), int(d.iat[1])

に変更すると動作すると思われますが、pandas のバージョンに関わらずに動作させるためにはやはり raw パラメータを明示的に raw=True としたいところです。

が、私の環境でも EM1206さんの環境と同じく raw=True を指定してもデータは Series型で渡されているようです。（ソースコードを追っていないのですが、バグなのかもしれません）

pandas 1.0.2 でどうしても raw=True を使いたいのであれば、同じく 1.0.0 からの新機能である、engin に numba を指定する（engine='numba'をパラメータに追加）ことで、raw=True が動作するようですので、こちらのパラメータを設定するのもありかもしれません（nunbaインストールが必要ですが）

https://pandas.pydata.org/pandas-docs/version/1.0.0/user_guide/computation.html#stats-rolling-apply

投稿2020/03/18 08:37

magichan

総合スコア15898

EM1206

2020/03/19 00:15

mugichanさん、ご回答いただきありがとうございます。手元で確認しましたが以下のコードでpandas1.0.1で期待している結果を得られることができました。 d1, d2 = int(d.iat[0]), int(d.iat[1]) しかし、ご指摘の通り明示的にraw=Trueにしたくengine='numba'を試しました。結果、以下のErrorが出てしまいました。 TypeError: expected int64, got None 私も検証を続けてみます。もし他に気づきがありましたら、ご教示いただけると幸いです。

行動規範の内容に同意します