前提・実現したいこと
dfplyでgroup_byを使った集計をしたい。
発生している問題・エラーメッセージ
dfplyでgroup_byを挟んで、smmarizeでsumやnで集計したとき、
group_byが機能せずにカラム全体の集計値が表示される。
該当のソースコード
df >> group_by(df.Annotation) >> summarize(cor_cnt=sum(df.cor_res), cnt=n(df.Annotation))
試したこと
df.groupby('Annotation').sum()
df.groupby('Annotation').size()
上記の集計値は正しくgroup_byされていた。
df >> select(df.Annotation, df.cor_res) >> group_by(df.Annotation) >> summarize(cor_cnt=sum(df.cor_res), cnt=n(df.Annotation))
上記の書き方でもgroup_byは機能していなかった。
補足情報(FW/ツールのバージョンなど)
GoogleColab Python3
####sumについての例です
######シンプルな入力例
Annotation | cor_res |
---|---|
0 | 0 |
1 | 1 |
2 | 0 |
3 | 1 |
0 | 1 |
1 | 1 |
2 | 1 |
3 | 1 |
######期待される結果
Annotation | cor_res |
---|---|
0 | 1 |
1 | 2 |
2 | 1 |
3 | 2 |
######実際の結果
Annotation | cor_res |
---|---|
0 | 6 |
1 | 6 |
2 | 6 |
3 | 6 |
回答1件
あなたの回答
tips
プレビュー