質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.60%
NumPy

NumPyはPythonのプログラミング言語の科学的と数学的なコンピューティングに関する拡張モジュールです。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

pandas

Pandasは、PythonでRにおけるデータフレームに似た型を持たせることができるライブラリです。 行列計算の負担が大幅に軽減されるため、Rで行っていた集計作業をPythonでも比較的簡単に行えます。 データ構造を変更したりデータ分析したりするときにも便利です。

Q&A

解決済

2回答

513閲覧

pythonで異なる行サイズのDataFrameの要素を全て足し合わせたい

gp13_trece

総合スコア1

NumPy

NumPyはPythonのプログラミング言語の科学的と数学的なコンピューティングに関する拡張モジュールです。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

pandas

Pandasは、PythonでRにおけるデータフレームに似た型を持たせることができるライブラリです。 行列計算の負担が大幅に軽減されるため、Rで行っていた集計作業をPythonでも比較的簡単に行えます。 データ構造を変更したりデータ分析したりするときにも便利です。

0グッド

0クリップ

投稿2022/09/14 15:26

編集2022/09/14 15:27

前提

pythonでバスケットボールのシュート確率の分析を行うプログラムを作りたいと思っています。

APIを利用して、ある選手の・あるシーズンにおけるシュートの様子を以下のような形のDataFrame形式で複数(50個ほど)取得することができました。以下、DataFrameの特徴を記します。

  • 一つのDataFrameは1試合あたりのシュートに関する情報で、N本目のシュートが決まった(MADE_FRAG=1)か外れたか(MADE_FRAG=0)を示している
  • 一つのDataFrameの行数は、1試合ごとのシュート本数であり、試合ごとに本数は異なるため行数も異なる→DataFrameのサイズが異なる
  • SHOT_ATTEMPTED_FLAGは常に1。
SHOT_MADE_FLAGSHOT_ATTEMPTED_FLAG
001
111
201
311
SHOT_MADE_FLAGSHOT_ATTEMPTED_FLAG
011
111
201
311
411
501

実現したいこと

  • シーズンを通して、N本目のシュート確率がどうだったかを知りたい
  • そのために、50個ほどあるDataFrame内の値を全て足し合わせたい→足し合わせた結果SHOT_ATTEMPTED_FLAGの値=DataFrameの個数=試合数となれば良い
  • 例えば、50試合のデータがあったとすると、「1本目のシュートは確率○%、2本目のシュートは確率○%で入り」

発生している問題・エラーメッセージ

  • DataFrameのサイズが揃っていないためか、計算が上手くいきません
  • 正しいかは分からないですが、十分な行数のあるDataFrame(値は全て0)を用意して、for文で上記のDataFrameを.addで足し合わせています。
  • その結果、以下のように、全てが0のDataFrameが返されます。
SHOT_MADE_FLAG SHOT_ATTEMPTED_FLAG 0 0 0 1 0 0 2 0 0 3 0 0 4 0 0 5 0 0 6 0 0 7 0 0 8 0 0 9 0 0 10 0 0 11 0 0 12 0 0 13 0 0 14 0 0 15 0 0 16 0 0 17 0 0 18 0 0 19 0 0 20 0 0 21 0 0

該当のソースコード

python

1import matplotlib.pyplot as plt 2import matplotlib.patches as patches 3import pandas as pd 4import json 5from nba_api.stats.endpoints import playergamelogs,shotchartdetail 6import numpy as np 7from IPython.display import display 8import seaborn as sns 9 10#値が全て0で十分な行数のあるDataFrameを作成 11shooting = [] 12for k in range(50): 13 shooting.append(k) 14feature = ['SHOT_MADE_FLAG', 'SHOT_ATTEMPTED_FLAG'] 15primary_data = pd.DataFrame(index=shooting, columns=feature) 16primary_data.fillna(0, inplace=True) 17 18def get_game_id(player_id="",Season=""):#playerAのplayer_idと情報を取得したいシーズンを入力 19 #playerAが当該シーズンに出場した試合idを取得する 20 player_game_id = playergamelogs.PlayerGameLogs(player_id_nullable=player_id,season_nullable=Season) 21 player_game_id = json.loads(player_game_id.get_json()) 22 rowdata = player_game_id["resultSets"][0]["rowSet"] 23 headers = player_game_id["resultSets"][0]["headers"] 24 game_df = pd.DataFrame(rowdata, columns=headers) 25 game_id_list = game_df.GAME_ID 26 #取得した試合idをリストにする 27 game_id_list = game_id_list.values.tolist() 28 for i in game_id_list:#試合idリストの番号とplayerAのplayer_idを元に、試合iにおけるAのシュート結果を取得 29 player_shots = shotchartdetail.ShotChartDetail(player_id=player_id,season_nullable=Season,game_id_nullable=i,context_measure_simple="FGA", team_id=1610612757) 30 player_shots = json.loads(player_shots.get_json()) 31 shots = player_shots["resultSets"][0]["rowSet"] 32 headers = player_shots["resultSets"][0]["headers"] 33 shot_df = pd.DataFrame(shots, columns=headers) 34 #取得したシュート結果から必要部分を抜き出してDataFrame化(ここまではできていることを確認済み) 35 shot_df = shot_df.loc[:,['SHOT_MADE_FLAG','SHOT_ATTEMPTED_FLAG']] 36 #関数外に作っておいた「値が全て0で十分な行数のあるDataFrame」に抜き出したDataFrameの値を足す 37 primary_data.add(shot_df) 38 print(primary_data) 39 40get_game_id(player_id=203081, Season="2020-21")

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

下記のような質問は推奨されていません。

  • 質問になっていない投稿
  • スパムや攻撃的な表現を用いた投稿

適切な質問に修正を依頼しましょう。

また依頼した内容が修正された場合は、修正依頼を取り消すようにしましょう。

guest

回答2

1

primary_data.add(shot_df) は primary_data に shot_df を足した結果の新しいDataFrameを返すだけで、primary_data は変更されません。
そのため、ループ後も初期の 0 のままになっています。
結果をもう一度 primary_data に代入してやる必要があります。

また、add()のデフォルトでは不足している部分は NaN が足されてしまうので、fill_value=0 で、0 を足すようにする必要があります。

python

1primary_data = primary_data.add(shot_df, fill_value=0)

個人的には、primary_data から loc で shot_df と同じ長さの部分だけを取り出して、直接加算していくほうが好きです。

python

1primary_data.loc[shot_df.index] += shot_df

投稿2022/09/14 23:52

bsdfan

総合スコア4369

gp13_trece👍を押しています

下記のような回答は推奨されていません。

  • 質問の回答になっていない投稿
  • スパムや攻撃的な表現を用いた投稿

このような回答には修正を依頼しましょう。

また依頼した内容が修正された場合は、修正依頼を取り消すようにしましょう。

回答へのコメント

gp13_trece

2022/09/16 13:42

ありがとうございます!初歩的なミスでしたが解決できました。「primary_data から loc で shot_df と同じ長さの部分だけを取り出して」の部分について確かに仰るとおりですね。ありがとうございます。
guest

1

ベストアンサー

python

1import pandas as pd 2import json 3from nba_api.stats.endpoints import playergamelogs, shotchartdetail 4 5feature = ['SHOT_MADE_FLAG', 'SHOT_ATTEMPTED_FLAG'] 6 7def get_game_id(player_id="",Season=""):#playerAのplayer_idと情報を取得したいシーズンを入力 8 #playerAが当該シーズンに出場した試合idを取得する 9 player_game_id = playergamelogs.PlayerGameLogs(player_id_nullable=player_id,season_nullable=Season) 10 game_df = player_game_id.get_data_frames()[0] 11 df = pd.DataFrame(columns=feature) 12 for gid in game_df['GAME_ID']: 13 player_shots = shotchartdetail.ShotChartDetail(player_id=player_id, season_nullable=Season, game_id_nullable=gid, context_measure_simple="FGA", team_id=1610612757) 14 df = df.add(player_shots.get_data_frames()[0][feature], fill_value=0) 15 16 df = df.astype(int) 17 18 return df 19 20if __name__ == '__main__': 21 result = get_game_id(player_id=203081, Season="2020-21") 22 print(result) 23 24# 25 SHOT_MADE_FLAG SHOT_ATTEMPTED_FLAG 260 29 67 271 30 67 282 29 67 293 35 67 304 24 67 315 35 67 326 31 67 337 40 67 348 24 67 359 29 67 3610 27 66 3711 31 66 3812 30 65 3913 24 63 4014 25 60 4115 29 58 4216 26 52 4317 19 45 4418 13 43 4519 15 37 4620 19 32 4721 14 24 4822 9 19 4923 4 10 5024 4 8 5125 3 7 5226 1 4 5327 3 3 5428 0 1 5529 0 1

投稿2022/09/14 19:58

melian

総合スコア18767

gp13_trece👍を押しています

下記のような回答は推奨されていません。

  • 質問の回答になっていない投稿
  • スパムや攻撃的な表現を用いた投稿

このような回答には修正を依頼しましょう。

また依頼した内容が修正された場合は、修正依頼を取り消すようにしましょう。

回答へのコメント

gp13_trece

2022/09/16 13:43

ありがとうございます!無事欲しかったデータが得られました。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.60%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

同じタグがついた質問を見る

NumPy

NumPyはPythonのプログラミング言語の科学的と数学的なコンピューティングに関する拡張モジュールです。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

pandas

Pandasは、PythonでRにおけるデータフレームに似た型を持たせることができるライブラリです。 行列計算の負担が大幅に軽減されるため、Rで行っていた集計作業をPythonでも比較的簡単に行えます。 データ構造を変更したりデータ分析したりするときにも便利です。