50個程度の商品売買に関するDataFrameがあります。(50000行程度)
以下のように、
同じ名前の商品で複数回の売買があり「累計数量」が「0件」になったら、
次の行から別の取引とわかるようにフラグを立てたいと思っているんのですが、うまくいかず。。。お力添えよろしくお願いいたします。
<現在>
商品名 累計数量
商品1 20
商品1 -10
**商品1 0 ** ← 累計数量が「0」になったら、次の行からフラグ番号を変えたい
商品1 50
商品1 -50
**商品1 0 ** ← 累計数量が「0」になったら、次の行からフラグ番号を変えたい
商品1 50
<完成イメージ>
商品名 | 累計数量 | フラグ |
---|---|---|
商品1 | 20 | 1 |
商品1 | -10 | 1 |
商品1 | 0 | 1 |
商品1 | 50 | 2 |
商品1 | -50 | 2 |
商品1 | 0 | 2 |
商品1 | 50 | 3 |
気になる質問をクリップする
クリップした質問は、後からいつでもMYページで確認できます。
またクリップした質問に回答があった際、通知やメールを受け取ることができます。
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
回答3件
0
まず、可読性重視で書く。
python
1def generate_flag(values): 2 flag = 1 3 result = [] 4 for x in values: 5 result.append(flag) 6 if x == 0: 7 flag += 1 8 return result 9 10
で、これは遅いのですが、
python
1df = pd.DataFrame({"商品名":["商品1"] * 7 * 7000, 2 "累計数量":[20, -10, 0, 50, -50, 0, 50] * 7000}) 3 4%%timeit -n 100 5res = generate_flag(df["累計数量"]) 67.38 ms ± 187 µs per loop (mean ± std. dev. of 7 runs, 100 loops each) 7# 先に回答されていたお二方から拝借しています 8%%timeit -n 100 9res = (df['累計数量'].shift() == 0).cumsum() 10680 µs ± 31.7 µs per loop (mean ± std. dev. of 7 runs, 100 loops each) 11%%timeit -n 100 12res = (df["累計数量"] == 0).cumsum() - (df["累計数量"] == 0) + 1 131.1 ms ± 78 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)
基本的に同じロジックのまま多少書き換えて、numbaでjitコンパイルします。
python
1import numba 2import numpy as np 3 4@numba.jit("i8[:](i8[:])", nopython=True) 5def generate_flag_jit_i(values): 6 """型指定することにしました 7 """ 8 N = values.shape[0] 9 flag = 1 10 result = np.empty(N, dtype=np.int64) 11 for i in range(N): 12 result[i] = flag 13 if values[i] == 0: 14 flag += 1 15 return result 16 17def generate_flag_jit(values): 18 """最低限入力の型をあわせたりしないといけないので、ラッパー関数 19 """ 20 values = values.values 21 if values.dtype != np.int64: 22 values = values.astype(np.int64) 23 return generate_flag_jit_i(values) 24
ぱっと見はごたごたしていますが、実は上のコードとほとんど同じロジックで動いています。追加したコードは機械的に足しているだけなので、慣れれは数分で書けます。
すると、
%%timeit -n 100 generate_flag_jit(df["累計数量"]) 58.8 µs ± 11.5 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)
となり、cumsum
とかで書くより10倍速かったりします。
書いちゃったので投げておきますが、基本的には他の方の回答のやり方で良いと思われます。
どうしてもベクトル操作のメソッドで書くと遅くなってしまう……実用的ではない……
というとき、numbaでループを書くテクニックは使えるので、頭の片隅に入れておいて損はありません、という程度です。
投稿2021/02/03 07:28
編集2021/02/03 07:29総合スコア30935
0
ベストアンサー
.cumsum()
メソッドを使いましょう。
pandas.Series.cumsum — pandas 1.2.1 documentation
pandasで累積和・累積積(cumsum, cumprod, cummax, cummin) | note.nkmk.me
python
1In [3]: df 2Out[3]: 3 商品名 累計数量 40 商品1 20 51 商品1 -10 62 商品1 0 73 商品1 50 84 商品1 -50 95 商品1 0 106 商品1 50 11 12In [4]: (df['累計数量'].shift() == 0).cumsum() 13Out[4]: 140 0 151 0 162 0 173 1 184 1 195 1 206 2 21Name: 累計数量, dtype: int32
投稿2021/02/03 06:09
総合スコア1399
0
以下のような考え方はどうでしょう。
- 数量が0になっているかどうかのTrue/Falseの列を作る
- 1.で作った列について累積和をとる
- このままだと番号が変わるタイミングが0になった時になってしまうので、0になる場所について1引く
- スタートが0始まりになっているので、全体に1足す
Python
1df = pd.DataFrame({"num":[20, -10, 0 ,50, -50, 0, 50]}) 2df["flag"] = (df["num"] == 0).cumsum() - (df["num"] == 0) + 1
num | flag |
---|---|
20 | 1 |
-10 | 1 |
0 | 1 |
50 | 2 |
-50 | 2 |
0 | 2 |
50 | 3 |
投稿2021/02/03 06:07
総合スコア313
あなたの回答
tips
太字
斜体
打ち消し線
見出し
引用テキストの挿入
コードの挿入
リンクの挿入
リストの挿入
番号リストの挿入
表の挿入
水平線の挿入
プレビュー
質問の解決につながる回答をしましょう。 サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。 また、読む側のことを考えた、分かりやすい文章を心がけましょう。