PythonのDataFrameで、index単位で特定の条件に合致するものの平均値を求めたい

上記図の競馬データを機械学習させるプログラムを作成しています。
この列にある「ave5_脚質」 <= 3.0のデータをindex単位で「ave5_前後半ペース差」の平均値をindex単位で同じ値を最後の列になる
「今回レースのペース予測」として、レース単位で集計したいです。

(resultDataProcessing5aveDfはdataframe)
resultDataProcessing5aveDf['今回レースのペース予測'] = resultDataProcessing5aveDf.groupby(level=0)[['ave5_前後半ペース差']].mean()

これだと、脚質に関係なくindex単位で集計されてしまうのですが、Pythonで特定の条件に合致するものだけ集計するような記述方法を教えていただけませんでしょうか？

Pythonは初めてまだ日が浅いので、ご回答していただける方、よろしくお願いいたします。

行動規範の内容に同意します

回答1件

ベストアンサー

「ave5_脚質 < 3.0」でマスクした結果に対して集計すれば良いです。

python
1mask = resultDataProcessing5aveDf['ave5_脚質'] <= 3.0
2resultDataProcessing5aveDf['今回レースのペース予測'] = resultDataProcessing5aveDf[mask].groupby(level=0)[['ave5_前後半ペース差']].mean()

この代入だと全ての同じインデックスを持つ行に同じ値が代入されてしまいますので、別のDataFrameにした方が収まりは良いように思いますが・・・。

投稿2020/08/21 00:00

編集2020/08/21 00:26

yymmt

総合スコア1615

voyagerleona

2020/08/21 01:01

ご回答ありがとうございます！なるほど、絞り込んでからgroupbyしてやればいいんですね。うまくいきました。インデックスの行単位が同じレースに出走する馬になってまして(ex:201601010101)、今中間データ的に作ろうとしていて、レース毎で同じ値になってしまうんですが、この値を使ってさらに各馬にとって有利か不利かっていう情報を作ろうとしてます。最終的にはLightGBMで機械学習させるときに、1個ドカンとDataFrameを解析させる必要があるので、一回DataFrame分解しておいて、最後にmergeするという手もありそうですね。凄く助かりました。ありがとうございます！

行動規範の内容に同意します