pandasのexplodeについて

Question

### 実現したいこと
以下jsonコードを,下記のように展開したいです。

青山　太郎, 英語 90,
青山　太郎, 数学 60,
青山　太郎, 科学 10,
黒田　一, 英語 10

### 発生している問題・分からないこと
どの様に実装したらよいのかわからないです。

また、上記機能を実装したら、英語が90点以上だった場合の処理などを追加したいのですが、
type(df_f['GradePoint'])はSeries型になっており、
以下処理で英語の値が取得できないのもなぜか知りたいです。

bd=df_f['GradePoint']
bd['English']

### 該当のソースコード

```Python
以下を実行しても、pandasの状態は実行前後で変わりませんでした。
import pandas as pd
df_f = pd.read_json('test.json')
exploded_df = df_f.explode('GradePoint')
test.json
[
  {
  "Name":"青山　太郎",
  "GradePoint":[
    {
      "English":"90",
      "Math":"60",
      "Science":"10"
    }
  ]
  },
  {
    "Name":"黒田　一",
    "GradePoint":[
      { 
        "English":"10",
        "Math":"30",
        "Science":"40"
      }
    ]
  },
  {
    "Name":"佐藤　詩織",
    "GradePoint":[
      { 
        "English":"50",
        "Math":"60",
        "Science":"20"
      }
      ]
    } 
]

```

### 試したこと・調べたこと
- [x] teratailやGoogle等で検索した
- [x] ソースコードを自分なりに変更した
- [ ] 知人に聞いた
- [ ] その他

##### 上記の詳細・結果
pandas にexplodeというメソッドがあるということ。

### 補足
特になし

Answer

既に解決済みなので御参考です。

下記に記述例を示しますが，変換のポイントは以下です。

* 「explode() メソッド」を用いて `df_f` の `'GradePoint'` 列の各要素（リスト）を辞書（リストの単一要素）に変換した後，「[pd.Series() 関数](https://pandas.pydata.org/docs/reference/api/pandas.Series.html)」を「apply() メソッド」を用いて各辞書に適用し，`'GradePoint'` 列を（3列の）データフレームに変換

* 「[melt() メソッド](https://pandas.pydata.org/docs/reference/api/pandas.melt.html)」を用いてワイド形式（`df_w`）からロング形式（`df`）へ変換

```Python
import pandas as pd

pd.set_option('display.unicode.east_asian_width', True)
pd.set_option('display.max_colwidth', 60)

df_f = pd.read_json('test.json')
print(df_f)
#          Name                                          GradePoint
# 0  青山　太郎  [{'English': '90', 'Math': '60', 'Science': '10'}]
# 1    黒田　一  [{'English': '10', 'Math': '30', 'Science': '40'}]
# 2  佐藤　詩織  [{'English': '50', 'Math': '60', 'Science': '20'}]

df_w = pd.concat([df_f['Name'], df_f['GradePoint'].explode().apply(pd.Series)],
                 axis=1)
print(df_w)
#          Name English Math Science
# 0  青山　太郎      90   60      10
# 1    黒田　一      10   30      40
# 2  佐藤　詩織      50   60      20

df = df_w.melt(id_vars=['Name'], var_name='Subject', value_name='Score',
               ignore_index=False).sort_index()
print(df)
#          Name  Subject Score
# 0  青山　太郎  English    90
# 0  青山　太郎     Math    60
# 0  青山　太郎  Science    10
# 1    黒田　一  English    10
# 1    黒田　一     Math    30
# 1    黒田　一  Science    40
# 2  佐藤　詩織  English    50
# 2  佐藤　詩織     Math    60
# 2  佐藤　詩織  Science    20

print(df[(df['Subject'] == 'English') & (df['Score'].astype(int) >= 90)])
#          Name  Subject Score
# 0  青山　太郎  English    90
```

Answer

[pandas.json_normalize](https://pandas.pydata.org/docs/reference/api/pandas.json_normalize.html) と [pandas.melt](https://pandas.pydata.org/docs/reference/api/pandas.melt.html) で変形します。最終的なデータフレーム(`explode_df`)の列名は必要に応じて変更してください。
```python
import pandas as pd
import json

with open('test.json') as json_file:
    data = json.load(json_file)

exploded_df = pd.json_normalize(data, 'GradePoint', ['Name']).reset_index()\
                .rename(columns={'English': '英語', 'Math': '数学', 'Science': '科学'})\
                .melt(id_vars=['index', 'Name']).sort_values('index', kind='stable')\
                .drop(columns='index').reset_index(drop=True).astype({'value': int})

print(exploded_df)

#          Name variable value
# 0  青山　太郎     英語    90
# 1  青山　太郎     数学    60
# 2  青山　太郎     科学    10
# 3    黒田　一     英語    10
# 4    黒田　一     数学    30
# 5    黒田　一     科学    40
# 6  佐藤　詩織     英語    50
# 7  佐藤　詩織     数学    60
# 8  佐藤　詩織     科学    20
```

### 追記

> 上記機能を実装したら、英語が90点以上だった場合の処理などを追加したい

[pandas.DataFrame.query — pandas 2.2.3 documentation](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.query.html) を利用して、変形後のデータフレーム(`exploded_df`)から条件に適合するレコードを抽出します。

```python
exploded_df.columns = ['名前', '科目', '点数']
result = exploded_df.query('科目=="英語" and 点数 >= 90')
print(result)

#          名前  科目  点数
# 0  青山　太郎  英語    90
```

Answer

df_f['GradePoint'] の列の要素は１つの辞書を持つリストになっています。
```Python
import pandas as pd

df_f = pd.read_json('test.json')
# 'GradePoint'列：要素が１つのリストから要素が複数のリストに変換
df_f['GradePoint'] = df_f['GradePoint'].map(lambda x: [*x[0].items()])
exploded_df = df_f.explode('GradePoint')
# 列分割
df_tmp = exploded_df['GradePoint'].apply(pd.Series)
exploded_df['Subject'] = df_tmp[0]
exploded_df['Score'] = df_tmp[1]
exploded_df.drop(columns=['GradePoint'], inplace=True)
print(exploded_df)
"""
    Name  Subject Score
0  青山　太郎  English    90
0  青山　太郎     Math    60
0  青山　太郎  Science    10
1   黒田　一  English    10
1   黒田　一     Math    30
1   黒田　一  Science    40
2  佐藤　詩織  English    50
2  佐藤　詩織     Math    60
2  佐藤　詩織  Science    20
"""
```
df_f = pd.read_json('test.json')
の df_f では次の状態です。
bd=df_f['GradePoint']        # １つの辞書のリストが要素のSeries
bd=df_f['GradePoint'][0][0]  # 青山氏の辞書
bd['English']                # 90

実現したいこと

発生している問題・分からないこと

該当のソースコード

試したこと・調べたこと

上記の詳細・結果

補足

追記

関連した質問