groupby、transformを用いて算出した平均値の置き換え

問題：transformして出した平均値を置き換えたい

閲覧していただきありがとうございます。
プログラミングを勉強し始めたばかりであり、壁にぶつかったため質問させていただきました。

以下のコードではgroupbyを用いて条件別にまとめ、transformを用いて条件別の平均値を平均カラムに出力したものです。

ソースコード

python
1
2df = pd.DataFrame([['王林', '青森', 'スーパー', 160],
3                   ['王林', '青森', 'スーパー', 180],
4                   ['王林', '青森', 'コンビニ', 210],
5                   ['王林', '青森', 'コンビニ', 230],
6                   ['王林', '長野', 'スーパー', 110],
7                   ['王林', '長野', 'スーパー', 170],
8                   ['王林', '長野', 'コンビニ', 250],
9                   ['王林', '長野', 'コンビニ', 240],
10                   ['紅玉', '青森', 'スーパー', 170],
11                   ['紅玉', '青森', 'スーパー', 150],
12                   ['紅玉', '青森', 'コンビニ', 220],
13                   ['紅玉', '青森', 'コンビニ', 250],
14                   ['紅玉', '長野', 'スーパー', 170],
15                   ['紅玉', '長野', 'スーパー', 160],
16                   ['紅玉', '長野', 'コンビニ', 280],
17                   ['紅玉', '長野', 'コンビニ', 180]],
18                  columns=['種類', '都道府県', '場所', '値段'])
19df['平均'] = df.groupby(['種類','都道府県','場所']).transform(lambda x:x.mean())

実行結果

python
1#実行結果
2    種類 都道府県    場所   値段     平均
30   王林   青森  スーパー  160  170.0
41   王林   青森  スーパー  180  170.0
52   王林   青森  コンビニ  210  220.0
63   王林   青森  コンビニ  230  220.0
74   王林   長野  スーパー  110  140.0
85   王林   長野  スーパー  170  140.0
96   王林   長野  コンビニ  250  245.0
107   王林   長野  コンビニ  240  245.0
118   紅玉   青森  スーパー  170  160.0
129   紅玉   青森  スーパー  150  160.0
1310  紅玉   青森  コンビニ  220  235.0
1411  紅玉   青森  コンビニ  250  235.0
1512  紅玉   長野  スーパー  170  165.0
1613  紅玉   長野  スーパー  160  165.0
1714  紅玉   長野  コンビニ  280  230.0
1815  紅玉   長野  コンビニ  180  230.0

今回実行したいことを具体的に書くと

「場所の条件がコンビニの平均を、場所以外の条件は同一のスーパーの平均に置き換えたい」

です。

以下が具体的なゴールです。

ゴール

python
1#コンビニの平均がスーパーの平均に置き換わっている
2#*がついてるところが変更箇所
3    種類 都道府県    場所   値段     平均
40   王林   青森  スーパー  160  170.0
51   王林   青森  スーパー  180  170.0
62   王林   青森  コンビニ  210  170.0*
73   王林   青森  コンビニ  230  170.0*
84   王林   長野  スーパー  110  140.0
95   王林   長野  スーパー  170  140.0
106   王林   長野  コンビニ  250  140.0*
117   王林   長野  コンビニ  240  140.0*
128   紅玉   青森  スーパー  170  160.0
139   紅玉   青森  スーパー  150  160.0
1410  紅玉   青森  コンビニ  220  160.0*
1511  紅玉   青森  コンビニ  250  160.0*
1612  紅玉   長野  スーパー  170  165.0
1713  紅玉   長野  スーパー  160  165.0
1814  紅玉   長野  コンビニ  280  165.0*
1915  紅玉   長野  コンビニ  180  165.0*

試したこと

for文で１行ずつ取り出しての実行はできたのですが、実際のデータは行数が多いため、このコードだと処理に時間がかかり過ぎてしまいます。

python
1for i in range(len(df)):
2    if df.at[i,'場所'] != 'スーパー':
3        df.at[i, '平均'] = df[(df['種類'] == df.at[i, '種類']) & (df['都道府県'] == df.at[i, '都道府県']) & (df['場所'] == 'スーパー')]['値段'].mean()
4    else:
5        continue
6
7

そこで**「処理をより高速に終わらせる方法」**を模索しています。

どうかご回答よろしくお願いします。

行動規範の内容に同意します

回答1件

ベストアンサー

コンビニの価格にもスーパーの平均値を採用するということですかね。

であれば、groupby().transform(lambda d:d.mean()) を使うのではなく groupby().mean() にて、スーパーのみ の価格表を作製し、元のデータフレームにその価格を適用するとよいのではないでしょうか。

Python
1import pandas as pd
2
3df = pd.DataFrame([['王林', '青森', 'スーパー', 160],
4                   ['王林', '青森', 'スーパー', 180],
5                   ['王林', '青森', 'コンビニ', 210],
6                   ['王林', '青森', 'コンビニ', 230],
7                   ['王林', '長野', 'スーパー', 110],
8                   ['王林', '長野', 'スーパー', 170],
9                   ['王林', '長野', 'コンビニ', 250],
10                   ['王林', '長野', 'コンビニ', 240],
11                   ['紅玉', '青森', 'スーパー', 170],
12                   ['紅玉', '青森', 'スーパー', 150],
13                   ['紅玉', '青森', 'コンビニ', 220],
14                   ['紅玉', '青森', 'コンビニ', 250],
15                   ['紅玉', '長野', 'スーパー', 170],
16                   ['紅玉', '長野', 'スーパー', 160],
17                   ['紅玉', '長野', 'コンビニ', 280],
18                   ['紅玉', '長野', 'コンビニ', 180]],
19                  columns=['種類', '都道府県', '場所', '値段'])
20
21# スーパー価格の平均から値段表を作製
22price_list = df.loc[df['場所']=='スーパー'].groupby(['種類', '都道府県']).mean()
23# 上記の値段表をデータフレームに適用
24ret = df.drop('値段',axis=1).merge(price_list, left_on=['種類', '都道府県'], right_index=True)
25print(ret)
26#    種類 都道府県    場所     値段
27#0   王林   青森  スーパー  170.0
28#1   王林   青森  スーパー  170.0
29#2   王林   青森  コンビニ  170.0
30#3   王林   青森  コンビニ  170.0
31#4   王林   長野  スーパー  140.0
32#5   王林   長野  スーパー  140.0
33#6   王林   長野  コンビニ  140.0
34#7   王林   長野  コンビニ  140.0
35#8   紅玉   青森  スーパー  160.0
36#9   紅玉   青森  スーパー  160.0
37#10  紅玉   青森  コンビニ  160.0
38#11  紅玉   青森  コンビニ  160.0
39#12  紅玉   長野  スーパー  165.0
40#13  紅玉   長野  スーパー  165.0