質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.50%
Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

pandas

Pandasは、PythonでRにおけるデータフレームに似た型を持たせることができるライブラリです。 行列計算の負担が大幅に軽減されるため、Rで行っていた集計作業をPythonでも比較的簡単に行えます。 データ構造を変更したりデータ分析したりするときにも便利です。

Q&A

解決済

2回答

440閲覧

PandasのDataFrameを条件と数で区切る 

beluga00nm

総合スコア11

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

pandas

Pandasは、PythonでRにおけるデータフレームに似た型を持たせることができるライブラリです。 行列計算の負担が大幅に軽減されるため、Rで行っていた集計作業をPythonでも比較的簡単に行えます。 データ構造を変更したりデータ分析したりするときにも便利です。

0グッド

1クリップ

投稿2022/09/20 07:25

前提

Python3
Pandas

実現したいこと

以下のようなPandasのDataFrameがあります。
実際は30万行ほどあり、カラムももっと多いです。

timedata1data2
12:53:311011
12:53:321021
12:53:321051
12:53:331021
12:53:341031
12:53:35991
12:53:361001
12:53:371101
12:53:381120
12:53:39980
12:53:40920
12:53:411000
12:53:421040
12:53:421050
12:53:43971
12:53:44991
12:53:451001
12:53:461031
12:53:471021
12:53:481011
12:53:491081
12:53:50911
12:53:51990
12:53:52930
12:53:52990
12:53:531000
12:53:541011
12:53:551021
12:53:56971
12:53:471000
12:53:481000
12:53:491010
・・・

timeがindexになっており、data2は他の値に応じてつけられた判定用のカラムです。

このとき、
1が連続して5行以上現れたときに、
その最初の5行のdata1の値を使ってなにかしらを計算し結果を出力
5行目以降の1がある列とその下に連続する0の行は無視して、
また1が連続して5行以上現れるところで同じ計算をする
といった作業を行いたいです。
つまり、下のようになると嬉しいです。

timedata1data2
12:53:311011
12:53:321021
12:53:321051
12:53:331021
12:53:341031

→この5行から計算(例えば101,102,105,102,103の平均値を求めるなど)

その下のいくつかの行を飛ばし、次に計算するのはまた1が表れるこの5行

timedata1data2
12:53:43971
12:53:44991
12:53:451001
12:53:461031
12:53:471021

といった具合です。

Pandasでは1行目からループを回して計算するのは悪手だと聞いています。
どのように書くのが良いでしょうか。
実際は5行ではなくもっと長い(5000行)塊を探す必要があります。
また、見つけた塊に対する計算処理も平均値ではなくもっと複雑な計算です。

試したこと

.groupbyも違いますし、
https://teratail.com/questions/110232
これも少し違います。

お力を貸していただければ幸いです。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答2

0

python

1import pandas as pd 2import io 3 4df = pd.read_csv('data.csv') 5#df['time'] = pd.to_datetime(df['time']).dt.time 6 7# 8n = 5 9f = df['data2'][::-1].rolling(n).min().sort_index() 10dfx = df.groupby(f.eq(f.shift(fill_value=0) + 1).cumsum(), sort=False, as_index=False).head(n) 11print(dfx) 12
timedata1data2
012:53:311011
112:53:321021
212:53:321051
312:53:331021
412:53:341031
1412:53:43971
1512:53:44991
1612:53:451001
1712:53:461031
1812:53:471021

投稿2022/09/20 09:03

melian

総合スコア19618

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

beluga00nm

2022/09/23 06:05

ご回答いただきありがとうございました。rollingとminで連続する部分以外を0にできるのですね。とてもためになりました。
guest

0

ベストアンサー

以下のような流れでできると思います。

  • shiftcumsumにて同じ値が続くグループに番号を振る
  • data21であるグループのうち、グループサイズが5以上の行を抽出する
  • 抽出結果に対して再びグループ番号で集計しapplyにてグループ毎に計算を行う
  • 計算ではheadにて先頭5行のみを利用する

あるいはグループ番号を振った後にグループ内でサブ番号を振って、サブ番号が5以下の行を抽出しておいたほうが、後のグループ化→計算処理で楽かもしれません。

Python

1 2import pandas as pd 3import numpy as np 4 5data2 = np.array([1,1,1,1,1,1,0,0,1,0,1,1,1,1,1,0]) 6v1 = np.arange(1,data2.shape[0]+1) 7df = pd.DataFrame({'v1':v1, 'data2':data2}) 8print(df) 9""" 10 v1 data2 110 1 1 121 2 1 132 3 1 143 4 1 154 5 1 165 6 1 176 7 0 187 8 0 198 9 1 209 10 0 2110 11 1 2211 12 1 2312 13 1 2413 14 1 2514 15 1 2615 16 0 27""" 28 29# data2が1で5連続以上を抽出 30flg = df['data2'] 31df['grp'] = (flg != flg.shift(1,fill_value=flg[0])).cumsum() 32rows = df[flg == 1].groupby('grp')['grp'].size() 33grp = rows[rows>=5].index 34df2 = df[df['grp'].isin(grp)] 35print(df2) 36""" 37 v1 data2 grp 380 1 1 0 391 2 1 0 402 3 1 0 413 4 1 0 424 5 1 0 435 6 1 0 4410 11 1 4 4511 12 1 4 4612 13 1 4 4713 14 1 4 4814 15 1 4 49""" 50 51# 何らかの計算 52def func(gdf): 53 gdf = gdf.head(5) # 先頭5行を利用 54 return gdf['v1'].min(), gdf['v1'].max() 55 56ret = df2.groupby('grp').apply(func) 57print(ret) 58""" 59grp 600 (1, 5) 614 (11, 15) 62"""

投稿2022/09/20 08:24

編集2022/09/20 08:32
can110

総合スコア38233

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

beluga00nm

2022/09/21 11:21

大変ためになりましたし、中身も納得できました。 ありがとうございました。 shiftとcumsumで番号をふれるのは便利ですね、覚えておきます。 余談、というかもしよろしければ教えてほしいのですが、 # data2が1で5連続以上を抽出 の中にある rows = df[flg == 1].groupby('grp')['grp'].size() の ['grp']はどういった意味を持つのでしょうか。 無くても思い通りの結果になったのですが、 df[flg == 1].groupby('grp')というデータフレーム(形式はgroupby?)の ['grp']の列のサイズとう意味ですか?
can110

2022/09/22 08:54

['grp']でgrpという列を指定しています。 今回はsize、すなわち行数が分かればよいので列は指定しなくてもよいですが 平均、最大、最小値を得たい場合は、列名を指定すると、その列の値を得ることができます。
beluga00nm

2022/09/23 06:02

ご丁寧に教えていただきありがとうございました!
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.50%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問