pandasを使った集計方法に関する質問

前提

以下のようなdfを保持しているとします。

vehicleID	GPS_class_info	time
1	12	2020-04-24 16:08:09.070
1	12	2020-04-24 16:08:09.180
1	12	2020-04-24 16:08:09.280
1	12	2020-04-24 16:08:09.390
1	12	2020-04-24 16:08:09.390
2	1	2020-04-24 16:10:09.390
3	1	2020-04-24 16:12:09.280
3	1	2020-04-24 16:12:09.390
3	1	2020-04-24 16:12:09.490

##実現したい形
vehicleIDごとのカウント数が1以下の物を外れ値として消去したい。

vehicleID	GPS_class_info	time
1	12	2020-04-24 16:08:09.070
1	12	2020-04-24 16:08:09.180
1	12	2020-04-24 16:08:09.280
1	12	2020-04-24 16:08:09.390
1	12	2020-04-24 16:08:09.390
3	1	2020-04-24 16:12:09.280
3	1	2020-04-24 16:12:09.390
3	1	2020-04-24 16:12:09.490
### 発生している問題・エラーメッセージ
一行列を追加してvehicleIDが持つ数が1以下であればフラグを立てるような処理をして消去しようとしているのですが、
方法が思いつきません。

vehicleID	GPS_class_info	time
1	12	2020-04-24 16:08:09.070
1	12	2020-04-24 16:08:09.180
1	12	2020-04-24 16:08:09.280
1	12	2020-04-24 16:08:09.390
1	12	2020-04-24 16:08:09.390
2	1	2020-04-24 16:10:09.390
3	1	2020-04-24 16:12:09.280
3	1	2020-04-24 16:12:09.390
3	1	2020-04-24 16:12:09.490

試したこと

vehicleIDごとのカウントはできたのですが、先に進めていません。
良い方法があればご教示お願いします。

python
1df.groupby('vehicleID').count()["GPS_class_info"]

補足情報（FW/ツールのバージョンなど）

python3.7

行動規範の内容に同意します

回答2件

ベストアンサー

vehicleIDごとのカウントのSeriesは取得できているので、カウントが1より大きなもののインデックスを抽出してisinの引数に指定する。

Python
1import pandas as pd
2import io
3
4txt = """
5vehicleID,GPS_class_info,time
61,12,2020-04-24 16:08:09.070
71,12,2020-04-24 16:08:09.180
81,12,2020-04-24 16:08:09.280
91,12,2020-04-24 16:08:09.390
101,12,2020-04-24 16:08:09.390
112,1,2020-04-24 16:10:09.390
123,1,2020-04-24 16:12:09.280
133,1,2020-04-24 16:12:09.390
143,1,2020-04-24 16:12:09.490
15"""
16
17df = pd.read_csv(io.StringIO(txt), parse_dates=['time'])
18# print(df)
19
20s = df.groupby('vehicleID').count()['GPS_class_info']
21df2 = df[df['vehicleID'].isin(s[s > 1].index)]
22print(df2)

result
1   vehicleID  GPS_class_info                    time
20          1              12 2020-04-24 16:08:09.070
31          1              12 2020-04-24 16:08:09.180
42          1              12 2020-04-24 16:08:09.280
53          1              12 2020-04-24 16:08:09.390
64          1              12 2020-04-24 16:08:09.390
76          3               1 2020-04-24 16:12:09.280
87          3               1 2020-04-24 16:12:09.390
98          3               1 2020-04-24 16:12:09.490

投稿2020/09/17 03:59

Daregada

総合スコア11990

shin33

2020/09/17 06:29

ご回答ありがとうございます。お陰様で解決に至りました。

行動規範の内容に同意します

以下のように抽出できます。

Python
1import pandas as pd
2
3df = pd.DataFrame({'id':[1,1,2,3,3], 'val':[1,2,3,4,5]})
4print(df)
5#   id  val
6#0   1    1
7#1   1    2
8#2   2    3
9#3   3    4
10#4   3    5
11
12g =  df.groupby('id')['id'].count()
13g = g[g > 1]
14print(df[ df['id'].isin(g.index)])
15#   id  val
16#0   1    1
17#1   1    2
18#3   3    4
19#4   3    5