質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.34%
Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

pandas

Pandasは、PythonでRにおけるデータフレームに似た型を持たせることができるライブラリです。 行列計算の負担が大幅に軽減されるため、Rで行っていた集計作業をPythonでも比較的簡単に行えます。 データ構造を変更したりデータ分析したりするときにも便利です。

Q&A

解決済

2回答

398閲覧

Pandasのバージョンを1系から2系に上げた際のapplyの挙動の変化について

issRSN

総合スコア5

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

pandas

Pandasは、PythonでRにおけるデータフレームに似た型を持たせることができるライブラリです。 行列計算の負担が大幅に軽減されるため、Rで行っていた集計作業をPythonでも比較的簡単に行えます。 データ構造を変更したりデータ分析したりするときにも便利です。

1グッド

0クリップ

投稿2024/10/15 02:19

実現したいこと

Pandasのgroupbyとapply関数を用いてデータフレームの数値からグループ別の割合を算出したい。

発生している問題・分からないこと

Pandasのバージョンを1系(1.0.5)から2系(2.2.1)に上げたところ、apply関数の挙動が変わっていることに気づきました。
具体的には、groupbyとapply関数を使ってグループ別の割合を算出した際に、2系においては意図しない結果が得られてしまいます。(ソースコードを参照してください。)

そこで以下について教えて下さい。

①Pandasの2系でapply関数を使って割合を算出する方法について
一旦グループ別に合計を算出したデータフレームを作ってから、元のデータにマージする...等の方法で一応解決はできるのですが、apply関数を用いてスマート(極力1行で)に実装したいと考えています。
2系の仕様でgroupbyとapply関数を用いてグループ別の割合を算出する方法を教えていただけないでしょうか。

このような2系のapply関数の挙動ですが、これまでの1系のそれに慣れている身からすると、少し不可解です。どういう計算をしてこのような結果になっているのかが検討が付きません…。
ご教示の程をお願いします。

該当のソースコード

#--性別別にfareの値を割合に変換するコード #--pandasのversionが1.0.5の場合-------------------------------------------------------- import pandas as pd df = pd.read_csv(r'https://hbiostat.org/data/repo/titanic3.csv') #--以下のapply関数で男女別にfareの数値の割合を算出 df["rate"] = df.groupby(["sex"])["fare"].apply(lambda x: x/x.sum()).reset_index(drop=True) print(df.groupby("sex")["rate"].sum()) #sex #female 1.0 #male 1.0 #性別ごとに上記コードで算出したrateを足すと1(100%)になる。(意図した通りの挙動) #--pandasのversionが2.2.1の場合-------------------------------------------------------- import pandas as pd df = pd.read_csv(r'https://hbiostat.org/data/repo/titanic3.csv') #--以下のapply関数で男女別にfareの数値の割合を算出 df["rate"] = df.groupby(["sex"])["fare"].apply(lambda x: x/x.sum()).reset_index(drop=True) print(df.groupby("sex")["rate"].sum()) #sex #female 0.762784 #male 1.237216 #性別ごとに上記コードで算出したrateを足すと1(100%)にならない。(意図していない挙動)

試したこと・調べたこと

  • teratailやGoogle等で検索した
  • ソースコードを自分なりに変更した
  • 知人に聞いた
  • その他
上記の詳細・結果

"pandas apply change"等の単語で調査を行いましたが、有益な情報は得られませんでした。

補足

特になし

melian👍を押しています

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

ANK

2024/10/15 03:41 編集

回答と同じことを書いてしまったので編集して消しました。
guest

回答2

0

#本文
applyは使っていないのですが、それでも大丈夫なら
df["rate"] = df.groupby("sex")["fare"].transform(lambda x: x / x.sum())
としてはどうでしょうか。reset_indexしなくてもよくなると思います。
(Melianさんがapplyを使ったすばらしい回答をしているので不要な気がしますが)

#追記
Pandas 1.x系では、groupbyとapplyの後にreset_index(drop=True)を使うと、適用した関数の結果が元のデータフレームの順序に合わせてインデックスがリセットされ、データの位置も保持されました。
しかし、Pandas 2.x系では、groupbyの適用結果が元のデータフレームのインデックスに依存しない順序になることがあり、それに対してreset_index(drop=True)を行うと、結果が異なる順序でリセットされるため、計算結果がズレる可能性が出てきます。
(自分なりに調べてみました。)

投稿2024/10/15 03:37

編集2024/10/15 03:42
ANK

総合スコア10

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

melian

2024/10/15 03:53 編集

Pandas 2.0 の groupby() で group_keys のデフォルト値が True に変更されたことが原因の様です。 pandas.DataFrame.groupby — pandas 2.2.3 documentation https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.groupby.html > group_keys: bool, default True > When calling apply and the by argument produces a like-indexed (i.e. a transform) result, add group keys to index to identify pieces. By default group keys are not included when the result’s index (and column) labels match the inputs, and are included otherwise. > > Changed in version 2.0.0: group_keys now defaults to True.
ANK

2024/10/15 03:55

そこからつながっていたのですね、ご指摘(補足?)ありがとうございます。
issRSN

2024/10/15 04:05

groupbyの中にgroup_keysを設定することで意図した結果が得られることができました。 group_keys のデフォルト値が変更されたことが原因なのですね。本当にありがとうございました。
guest

0

ベストアンサー

2系の仕様でgroupbyとapply関数を用いてグループ別の割合を算出する方法

groupby() の結果、multi-index になっていて、reset_index(drop=True) で元のインデックスを削除してしまっています。なので、グループインデックス(male, female)を作成しない様にすればよいかと思います。(group_keys=False を指定)

python

1df["rate"] = df.groupby("sex", group_keys=False)["fare"].apply(lambda x: x/x.sum()) 2 3print(df.groupby("sex")["rate"].sum()) 4 5# sex 6# female 1.0 7# male 1.0 8# Name: rate, dtype: float64

投稿2024/10/15 03:16

編集2024/10/15 03:25
melian

総合スコア20721

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

issRSN

2024/10/15 04:04

groupbyの中にgroup_keysを設定することで意図した結果が得られることができました。 group_keys のデフォルト値が変更されたことが原因なのですね。本当にありがとうございました。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.34%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問