質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.35%
Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

Q&A

解決済

3回答

1868閲覧

Python Pandas データフレームのフラグ付けに関する質問です

iios

総合スコア4

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

0グッド

0クリップ

投稿2021/02/03 05:43

編集2021/02/03 05:56

50個程度の商品売買に関するDataFrameがあります。(50000行程度)

以下のように、
同じ名前の商品で複数回の売買があり「累計数量」が「0件」になったら、
次の行から別の取引とわかるようにフラグを立てたいと思っているんのですが、うまくいかず。。。お力添えよろしくお願いいたします。

<現在>
商品名 累計数量
商品1 20
商品1 -10
**商品1 0 ** ← 累計数量が「0」になったら、次の行からフラグ番号を変えたい
商品1 50
商品1 -50
**商品1 0 ** ← 累計数量が「0」になったら、次の行からフラグ番号を変えたい
商品1 50

<完成イメージ>

商品名累計数量フラグ
商品1201
商品1-101
商品101
商品1502
商品1-502
商品102
商品1503

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

ppaul

2021/02/03 07:56 編集

元のデータに商品1以外の商品はないと考えてよいのですか? 50個程度の商品というのが混在した状態だとすると、商品名ごとにフラグを立てるのでしょうか?
guest

回答3

0

まず、可読性重視で書く。

python

1def generate_flag(values): 2 flag = 1 3 result = [] 4 for x in values: 5 result.append(flag) 6 if x == 0: 7 flag += 1 8 return result 9 10

で、これは遅いのですが、

python

1df = pd.DataFrame({"商品名":["商品1"] * 7 * 7000, 2 "累計数量":[20, -10, 0, 50, -50, 0, 50] * 7000}) 3 4%%timeit -n 100 5res = generate_flag(df["累計数量"]) 67.38 ms ± 187 µs per loop (mean ± std. dev. of 7 runs, 100 loops each) 7# 先に回答されていたお二方から拝借しています 8%%timeit -n 100 9res = (df['累計数量'].shift() == 0).cumsum() 10680 µs ± 31.7 µs per loop (mean ± std. dev. of 7 runs, 100 loops each) 11%%timeit -n 100 12res = (df["累計数量"] == 0).cumsum() - (df["累計数量"] == 0) + 1 131.1 ms ± 78 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)

基本的に同じロジックのまま多少書き換えて、numbaでjitコンパイルします。

python

1import numba 2import numpy as np 3 4@numba.jit("i8[:](i8[:])", nopython=True) 5def generate_flag_jit_i(values): 6 """型指定することにしました 7 """ 8 N = values.shape[0] 9 flag = 1 10 result = np.empty(N, dtype=np.int64) 11 for i in range(N): 12 result[i] = flag 13 if values[i] == 0: 14 flag += 1 15 return result 16 17def generate_flag_jit(values): 18 """最低限入力の型をあわせたりしないといけないので、ラッパー関数 19 """ 20 values = values.values 21 if values.dtype != np.int64: 22 values = values.astype(np.int64) 23 return generate_flag_jit_i(values) 24

ぱっと見はごたごたしていますが、実は上のコードとほとんど同じロジックで動いています。追加したコードは機械的に足しているだけなので、慣れれは数分で書けます。

すると、

%%timeit -n 100 generate_flag_jit(df["累計数量"]) 58.8 µs ± 11.5 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)

となり、cumsumとかで書くより10倍速かったりします。


書いちゃったので投げておきますが、基本的には他の方の回答のやり方で良いと思われます。

どうしてもベクトル操作のメソッドで書くと遅くなってしまう……実用的ではない……

というとき、numbaでループを書くテクニックは使えるので、頭の片隅に入れておいて損はありません、という程度です。

投稿2021/02/03 07:28

編集2021/02/03 07:29
hayataka2049

総合スコア30935

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

iios

2021/02/03 08:52

ご丁寧にご解説くださりありがとうございました。 まだ飲み込めていないので、後ほど動かしながら確認させていただきます。 ありがとうございました。
guest

0

ベストアンサー

.cumsum()メソッドを使いましょう。
pandas.Series.cumsum — pandas 1.2.1 documentation
pandasで累積和・累積積(cumsum, cumprod, cummax, cummin) | note.nkmk.me

python

1In [3]: df 2Out[3]: 3 商品名 累計数量 40 商品1 20 51 商品1 -10 62 商品1 0 73 商品1 50 84 商品1 -50 95 商品1 0 106 商品1 50 11 12In [4]: (df['累計数量'].shift() == 0).cumsum() 13Out[4]: 140 0 151 0 162 0 173 1 184 1 195 1 206 2 21Name: 累計数量, dtype: int32

投稿2021/02/03 06:09

kirara0048

総合スコア1399

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

iios

2021/02/03 08:48

こんなにシンプルに書けるんですね。解決いたしました。ありがとうございました。
guest

0

以下のような考え方はどうでしょう。

  1. 数量が0になっているかどうかのTrue/Falseの列を作る
  2. 1.で作った列について累積和をとる
  3. このままだと番号が変わるタイミングが0になった時になってしまうので、0になる場所について1引く
  4. スタートが0始まりになっているので、全体に1足す

Python

1df = pd.DataFrame({"num":[20, -10, 0 ,50, -50, 0, 50]}) 2df["flag"] = (df["num"] == 0).cumsum() - (df["num"] == 0) + 1
numflag
201
-101
01
502
-502
02
503

投稿2021/02/03 06:07

Amakaze

総合スコア313

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

iios

2021/02/03 08:47

手順も書いていただき、とても助かりました!ありがとうございます。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.35%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問