質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
GROUP BY

GROUP BYとはSQL文のひとつで、SELECT文において特定の列の値が等しい行ごとに表をグループ化します。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

pandas

Pandasは、PythonでRにおけるデータフレームに似た型を持たせることができるライブラリです。 行列計算の負担が大幅に軽減されるため、Rで行っていた集計作業をPythonでも比較的簡単に行えます。 データ構造を変更したりデータ分析したりするときにも便利です。

Q&A

解決済

2回答

581閲覧

要素ごとに全体の個数、特定条件の個数を数えてその割合を計算させたい

8960

総合スコア108

GROUP BY

GROUP BYとはSQL文のひとつで、SELECT文において特定の列の値が等しい行ごとに表をグループ化します。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

pandas

Pandasは、PythonでRにおけるデータフレームに似た型を持たせることができるライブラリです。 行列計算の負担が大幅に軽減されるため、Rで行っていた集計作業をPythonでも比較的簡単に行えます。 データ構造を変更したりデータ分析したりするときにも便利です。

0グッド

0クリップ

投稿2021/08/01 03:51

編集2021/08/01 05:06

前提・実現したいこと

Python初心者です。現在excelファイルをソースにデータ処理を行っております。
添付写真のようなデータをもとに、最終的にはNameごとに
①全Outcome数
②Outcome行の"Strike","In Play","Error"の個数の合計
③全Outcome数に対する②の個数の%

以上3点を出力したいと考えております。

イメージ説明

発生している問題・エラーメッセージ

AttributeError: 'tuple' object has no attribute 'sum'

該当のソースコード

Python

1df_b=df.groupby("Name")["Outcome"].apply(lambda x:(x=="Strike","In Play","Error").sum()).reset_index(name="count") 2df_b 3

試したこと

まだ序盤ですが躓いております。x==の完全一致のところは、例えば"Strike"のみであればエラーは発生しませんでした。sum関数の特性?なのかなと思いますが、そのほかの方法含めご教示の程お願い致します。

補足情報(FW/ツールのバージョンなど)

vsCodeを使用しております。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答2

0

ベストアンサー

集計はapplyでもできますが、aggの方がわかりやすいです。
あと、複数との一致を調べるにはisinを使います。

python

1df_b = df.groupby("Name")["Outcome"].agg( 2 count1='count', 3 count2=lambda s: s.isin(["Strike", "In Play", "Error"]).sum()) 4df_b['ratio'] = df_b['count2'] / df_b['count1']

投稿2021/08/02 00:51

bsdfan

総合スコア4567

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

8960

2021/08/04 01:56

ありがとうございます!無事できました。
guest

0

こういう感じです。

python

1>>> print(df) 2 Name Outcome count 30 T S 1 41 T B 1 52 T I 1 63 T E 1 74 T S 1 85 K S 1 96 K I 1 107 K E 1 118 K S 1 129 K B 1 1310 K B 1 14>>> df['count'] = 1 15>>> print(df.groupby("Name")['count'].sum()) 16Name 17K 6 18T 5 19Name: count, dtype: int64 20>>> df2 = df.groupby(["Name", "Outcome"]).sum().reset_index() 21>>> df2['%'] = pd.concat([d['count']/d['count'].sum() for _, d in (df2.groupby("Name"))]) 22>>> print(df2) 23 Name Outcome count % 240 K B 2 0.333333 251 K E 1 0.166667 262 K I 1 0.166667 273 K S 2 0.333333 284 T B 1 0.200000 295 T E 1 0.200000 306 T I 1 0.200000 317 T S 2 0.400000

投稿2021/08/01 04:38

ppaul

総合スコア24666

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

8960

2021/08/01 05:14

ご回答ありがとうございます! 説明足らずでおりました。 最終的な出力としては、「全outcome数に対する"Strike","In Play","Error"の個数の合計の割合」ですのでName一つにつき、一行のみの%で収まる感じですね。 以下のような感じです。 Takahashi 5 4 80% Kubo   6 4 67% . . .
ppaul

2021/08/01 16:00

それなら、 df['count'] = 1 df['count'] = df['count'].where(df['Outcome']!='B', 0) df2 = df.groupby('Name').mean() です。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問