DataFrameのreplaceで置換されなかった要素の処理について

DataFrameのreplaceをした際に、replaceされない要素について以下の処理を行いたいです。

以下のようなDataFrameがあります。

pref = ["東京", "東京", "東京", "埼玉", "千葉", "神奈川"]
value = ["渋谷", "新宿", "池袋", "大宮", "新浦安", "横浜"]

df = pd.DataFrame({'都道府県':pref, '市区町村': value})

index	都道府県	市区町村
1	東京	渋谷
2	東京	新宿
3	東京	池袋
4	埼玉	大宮
5	千葉	新浦安
6	神奈川	横浜

このDataFrameの市区町村をkeyにして、replaceを利用してvalueに置換します。

dic = {"渋谷":100, "新宿":90, "大宮":50, "新浦安":45, "横浜":80}
df["市区町村"] = df["市区町村"].replace(dic)

すると以下のようなDataFrameができます。

index	都道府県	市区町村
1	東京	100
2	東京	90
3	東京	池袋
4	埼玉	50
5	千葉	45
6	神奈川	80

ここで、辞書のkeyにない池袋には東京の平均値(100+90)/2=95を入れたいです。

しかし、うまく処理をする方法がわかりませんでした。

できれば、{"池袋":95}の辞書を再度定義してreplaceするなどはしたくないです。(たくさんの市区町村が本来はあるため、辞書を作成するのが大変です)

うまいこと処理できるような方法はありますでしょうか。よろしくお願いします。

行動規範の内容に同意します

回答2件

ベストアンサー

解決済になっていますが、ベストアンサーとなっている回答が適当ではないので投稿します。

まず、辞書を用いて値を置換する際に、質問文では.replace()メソッドを用いていますが、代わりに.map()メソッドを用いると辞書のキーに存在せず置換されなかった値は自動的にNaNに変換されます。

python
1In [11]: df["市区町村"].replace(dic)
2Out[11]:
30    100
41     90
52     池袋
63     50
74     45
85     80
9Name: 市区町村, dtype: object
10
11In [12]: df["市区町村"].map(dic)
12Out[12]:
130    100.0
141     90.0
152      NaN
163     50.0
174     45.0
185     80.0
19Name: 市区町村, dtype: float64

その結果、.replace()メソッドを用いて得られたシリーズは整数型と文字列型が混在するobjectデータ型になってしまっていますが、.map()メソッドを用いて得られたシリーズはすべてが数値からなるfloatデータ型になっています（なお整数型になっていないのはintデータ型がNaNを受け入れないためです）。
さらに、このとき.replace()メソッドよりも.map()メソッドのほうが高速に動作していることも注目に値します（この速度差はシリーズの行数が多いとさらに開きます）。

python
1In [13]: %timeit df["市区町村"].replace(dic)
2    ...: %timeit df["市区町村"].map(dic)
3694 µs ± 8.52 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)
4475 µs ± 9.99 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)

つづいて、値がNaNとなっているデータを特定の値で上書きする場合には、.fillna()メソッドが利用できます。.map()メソッドを用いたことがここで生きてきます。NaNに変換したことで、わざわざ'池袋'をキーにした辞書ライクなものを作成する必要がなくなり、シリーズの標準のメソッドを活用することができます。

シリーズの平均値で欠損値を穴埋めする場合は、Series.fillna(Series.mean))のようにします。以下はこの動作の例です。

python
1In [14]: s = pd.Series([1, 2, None, 3, 4])
2
3In [15]: s.fillna(s.mean())
4Out[15]:
50    1.0
61    2.0
72    2.5
83    3.0
94    4.0
10dtype: float64

この動作を'都道府県'列の値に基づいたグループごとに適用します。「シリーズを変更する動作を、グループごとに適用」は.groupby().transform()を用います（.groupby().apply()でも可能ですが適当ではありません）。

python
1In [16]: df['市区町村'].map(dic).groupby(df['都道府県']).transform(lambda s: s.fillna(s.mean()))
2Out[16]:
30    100.0
41     90.0
52     95.0
63     50.0
74     45.0
85     80.0
9Name: 市区町村, dtype: float64

このようにして得たシリーズをもとのdfに再び割り当てることで、求めたい結果が得られます。

以下に今回の操作をまとめます。

python
1In [17]: pref = ["東京", "東京", "東京", "埼玉", "千葉", "神奈川"]
2    ...: value = ["渋谷", "新宿", "池袋", "大宮", "新浦安", "横浜"]
3    ...: df = pd.DataFrame({'都道府県':pref, '市区町村': value})
4    ...: dic = {"渋谷":100, "新宿":90, "大宮":50, "新浦安":45, "横浜":80}
5    ...: 
6    ...: df
7Out[17]:
8  都道府県 市区町村
90   東京   渋谷
101   東京   新宿
112   東京   池袋
123   埼玉   大宮
134   千葉  新浦安
145  神奈川   横浜
15
16In [18]: df.assign(市区町村=df['市区町村'].map(dic).groupby(df['都道府県']).transform(lambda s: s.fillna(s.mean())))
17Out[18]:
18  都道府県   市区町村
190   東京  100.0
201   東京   90.0
212   東京   95.0
223   埼玉   50.0
234   千葉   45.0
245  神奈川   80.0

投稿2021/06/02 04:02

編集2021/06/02 04:08

kirara0048

総合スコア1399

WatanabeJin

2021/06/02 04:29

このような回答お待ちしておりました！ありがとうございます。

行動規範の内容に同意します

そういう特殊な処理を簡単にはできませんので、手順を追って普通に行いましょう。

python
1>>> import pandas as pd
2>>>
3>>> pref = ["東京", "東京", "東京", "埼玉", "千葉", "神奈川"]
4>>> value = ["渋谷", "新宿", "池袋", "大宮", "新浦安", "横浜"]
5>>> df = pd.DataFrame({'都道府県':pref, '市区町村': value})
6>>> dic = {"渋谷":100, "新宿":90, "大宮":50, "新浦安":45, "横浜":80}
7>>> df["市区町村"] = df["市区町村"].replace(dic)
8>>> tempdf = df[df["市区町村"].apply(lambda x:type(x) == int)].copy()
9>>> tempdf["市区町村"] = tempdf["市区町村"].astype(int)
10>>> mean_df = tempdf.groupby('都道府県').mean()
11>>> mean_dict = mean_df.to_dict()['市区町村']
12>>> df['市区町村']  = df.apply(lambda row: row['市区町村'] if type(row['市区町村'])==int else mean_dict[row['都道府県']], axis=1)
13>>> print(df)
14  都道府県  市区町村
150   東京   100
161   東京    90
172   東京    95
183   埼玉    50
194   千葉    45
205  神奈川    80