n回以上繰り返されたとき、Pandasデータフレームの内の連続する重複をn回まで残して、以降は削除する方法

前提・実現したいこと

pythonを用いてデータ整理を行っています。
データフレーム内の指定された回数以上同じ数が連続している場合、連続n行目までを残してn行以降は削除する方法が知りたいです。

調べると、https://www.fixes.pub/program/32835.htmlの回答が一番目標に近かったのですが、ここではn行以上続いた場合、連続するまとまりの行すべてが削除されてしまっていました。

私の目標を具体的に説明すると、このようなDataFrameがある場合、

yの値が5行以上連続しているものは5行目まで残し、下記のようなデータフレームを出力したいと思っています。

試したこと

https://www.fixes.pub/program/32835.htmlでは、

thresh = 5
s = df['y'].diff().ne(0).cumsum()
small_size = s.groupby(s).transform('size') < thresh
first_rows = ~s.duplicated()
df[small_size | first_rows]

というコードが記載されており、設定する数字や演算子をいじってみたり、新たな条件（s.groupby(s).transform('size') > thresh の場合）を加えて指定された行数だけ残す式を考えようとしましたがわからず、目標の出力は行えませんでした。

python初心者で、関数に関して不明瞭な点が多く、データ整理が滞っています。
お力添えいただけましたら幸いです。よろしくお願いいたします。

行動規範の内容に同意します

回答1件

ベストアンサー

グループ分けまではできているので、あとはGroupby.head() を使って、グループごとに先頭からthresh行まで取ってくるようにすればいいです。

python
1thresh = 5
2s = df['y'].diff().ne(0).cumsum()
3print(df.groupby(s).head(thresh))

投稿2021/12/13 10:21

bsdfan

総合スコア4794

towai

2021/12/13 10:29

ありがとうございます。目標のデータが出力できました。

行動規範の内容に同意します

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.35%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう！

n回以上繰り返されたとき、Pandasデータフレームの内の連続する重複をn回まで残して、以降は削除する方法

前提・実現したいこと

試したこと

関連した質問