Pandas処理時間をもっと縮める方法？

前提・実現したいこと

Pandasで複数行のデータから判断して特定カラムにデータをセットしています。
処理時間をもっと縮める方法はないでしょうか？

発生している問題・WARNING MESSAGE　& 処理速度

C:\anaconda3\lib\site-packages\pandas\core\indexing.py:1765: SettingWithCopyWarning: 
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  isetter(loc, value)

該当のソースコード

Python
1%%time
2wdf = dft1 # 関数に変更時に使うためワーク変数を用意
3wptn = 0
4if wdf.iloc[0,3]=='B':  #1
5    wptn = wptn + 512
6if wdf.iloc[1,3]=='B':
7    wptn = wptn + 256
8if wdf.iloc[2,3]=='B':
9    wptn = wptn + 128
10if wdf.iloc[3,3]=='B':
11    wptn = wptn + 64
12if wdf.iloc[4,3]=='B':
13    wptn = wptn + 32
14if wdf.iloc[5,3]=='B':
15    wptn = wptn + 16
16if wdf.iloc[6,3]=='B':
17    wptn = wptn + 8
18if wdf.iloc[7,3]=='B':
19    wptn = wptn + 4
20if wdf.iloc[8,3]=='B':  #9
21    wptn = wptn + 2
22
23for i in range(9,len(wdf)-1):
24    if wdf.iloc[i,3]=='B':
25        wptn = wptn + 1
26    wdf.iloc[i+1, 4] = wptn
27    wptn = (wptn * 2) & 0b1111111111

試したこと

下図のようにFor分を使い　カラム(kei1_color)の直前１０行分データを、R=1,B=0と置き換えて　１０進数に変換したものを　カラム(prv_ptn_no)に順次セットしていく。

行動規範の内容に同意します

回答2件

言うまでもなく、pandasデータフレームをforで回すのは得策ではないです。
そして、知っておいたほうがいいのが、もしあなたがpandasを使いこなしたい、より高速に処理したい、と考えているならば、.apply()は多くの場合最適解ではないです。
このサイトでpandasによる比較的複雑な処理に関して質問するとよく.apply()メソッドを使っている回答を得られますが、.apply()を使っている回答が質問者さんのコードよりも速いのは、ほとんど（ベクトル化関数が渡された時を除いたすべて）の場合、演算過程を工夫したからであって.apply()自体が速度の面で優れているからではありません。にも関わらず.apply()がよく取り上げられるのは、やっていること（考え方）がforループとほとんど同じでコードが書きやすく、逆に言えば何をやっているか読み取りやすいということにあると思われます。
簡単に言えば、『pandas.DataFrame.applyは（時空間効率の観点からは）使用するべきではない』ということです。

今回の場合は畳み込み演算を行うnp.convolve()関数を用いることを提案します。
numpy.convolve — NumPy Manual
RとBのみからなる配列を01の配列に変換するのはとても簡単で、Bと比較するだけです。
01の配列に変換できたら、「初項1階比2の等比数列」でもって配列を畳み込み演算すれば、10桁ずつ、2進数→10進数変換したのと同じ結果が得られます。

以下に、.apply()を用いた方法との比較も兼ねた、np.convolve()を用いたコードをあげておきます。
（以下の例では、一行ずらしてデータフレームに割り当てるためにnp.r_を用いています）
両方法で同じ結果が得られるようにしましたが、np.convolve()を用いたコードのほうが7倍以上速く処理できました。

python
1import random
2import numpy as np
3import pandas as pd
4
5# 100万行データフレーム
6random.seed(110)
7rbs = ['RB'[random.randint(0, 1)] for _ in range(1000000)]
8df = pd.DataFrame({'rb': rbs})
9
10# applyメソッドを使った方法（can110 さんより） ---------
11# 参考：処理時間計測結果 385 ms ± 2.08 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)
12def func(v):
13    global wptn
14    ret = wptn
15    wptn = (wptn * 2) & mask
16    if v == 'B':
17        wptn += 1
18    return ret
19wptn = 0
20mask = 0b1111111111
21result_a = df.assign(ret=df['rb'].apply(func))
22print(result_a)
23"""
24       rb  ret
250       B    0
261       R    1
272       B    2
283       B    5
294       B   11
30...    ..  ...
31999995  R  935
32999996  B  846
33999997  R  669
34999998  R  314
35999999  B  628
36"""
37
38# np.convolve()を使った方法 --------------------------
39# 参考：処理時間計測結果 49.1 ms ± 170 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)
40N = 10
41result_b = df.assign(ret=np.r_[0, np.convolve(df['rb'] == 'B', 2**np.arange(N))[:-N]])
42print(result_b)
43"""
44       rb  ret
450       B    0
461       R    1
472       B    2
483       B    5
494       B   11
50...    ..  ...
51999995  R  935
52999996  B  846
53999997  R  669
54999998  R  314
55999999  B  628
56"""

投稿2021/05/07 01:34

kirara0048

総合スコア1399

ベストアンサー

applyを使うとよいかと思います。以下検証コードでは100万行でも数秒しかかかりません。

Python
1import pandas as pd
2import random
3
4def func(v):
5    global wptn
6    ret = wptn # （自分を含まない）直近分の値
7    wptn = (wptn * 2) & mask
8    if v == 'B':
9        wptn += 1
10    return ret
11
12# 単純例
13
14df = pd.DataFrame({'rb':list('BBBRRRBBRB')})
15
16wptn = 0
17mask = 0b111 # 直近３つ分
18df['ret'] = df['rb'].apply(func)
19print(df)
20"""
21  rb  ret
220  B    0
231  B    1
242  B    3
253  R    7
264  R    6
275  R    4
286  B    0
297  B    1
308  R    3
319  B    6
32"""
33
34# 大量例
35random.seed(110)
36rbs = ['RB'[random.randint(0,1)] for _ in range(1000000)]
37df = pd.DataFrame({'rb':rbs})
38
39wptn = 0
40mask = 0b1111111111
41df['ret'] = df['rb'].apply(func)
42print(df)
43"""
44       rb  ret
450       B    0
461       R    1
472       B    2
483       B    5
494       B   11
50...    ..  ...
51999995  R  935
52999996  B  846
53999997  R  669
54999998  R  314
55999999  B  628
56"""

投稿2021/05/06 01:40

can110

総合スコア38266

pandas

2021/05/06 04:01

applyを使うと同処理の実行速度が300msと激的に早くなりました。Pandasが他の言語と大きく違う感じがしました。ありがとうございますすごく参考になりました。　下記のようなWarning message が出てるのですがよく意味がわかりません。問題はないのでしょうか？ <timed exec>:3: SettingWithCopyWarning: A value is trying to be set on a copy of a slice from a DataFrame. Try using .loc[row_indexer,col_indexer] = value instead See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy