Python: pandasで条件付きでfillnaしたいが反映されない

PythonのPandasライブラリで欠損値の穴埋めをしたい。

データの整理をするうえで、欠損補完で詰まりました。
何列かあるDataFrameを作りました。何列かある中で、
SUUJI列の欠損を埋めるのに、各ID列ごとの平均を出して
その値で、各ID列の欠損を埋めたいと考えています。

利用するDataFrameの部分

例えば、
・CATEGORY=1の欠損については、(1.0+2.5)/2の値で埋める。
・CATEGORY=2の欠損については、(0.9+0.4+0.3)/3の値で埋める。
ということをしたいのです。

CATEGORY	SUUJI
1	1.0
1	2.5
1	NaN
2	0.9
2	NaN
2	0.4
2	0.3

3.書いたスクリプト
以下のスクリプトでfillnaの結果が反映されません。
最後の行を、inplace=Falseにしてprintすると、埋められているdfが出力されるのですが
inplace=Trueのもとでは、df表示させても欠損値が補完されていません。

for i in df['CATEGORY'].unique().tolist():
    val2 = df[df['CATEGORY']==i]['SUUJI'].mean()
    print(val2)
    df[df['CATEGORY']==i]['SUUJI'].fillna(value=val2,inplace=True)

行動規範の内容に同意します

回答2件

わたしもnomukenさんが書かれているように groupby() を使うのが良いかと思いますが、現状の方法でやりたいのであれば

まずは、
df[df['CATEGORY']==i]['SUUJI']
の箇所を
df.loc[df['CATEGORY']==i,'SUUJI']
とする必要があります。

前者は元のデータフレームの部分コピーが作成される可能性がありますので、コピーされたデータフレームに対していくら修正を行っても元のデータフレームは全く変更されない事になります。
後者はの場合は元のデータフレームのViewとして扱われますので、Viewに対する変更は元のデータフレームにも反映されます。

ただ、残念なことに上記の修正を行い

Python
1df.loc[df['CATEGORY']==i,'SUUJI'].fillna(value=val2, inplace=True)

としても動作しないようです。
原因の詳細は詳しく追っていので解かっていないのですが、経験上Viewに対してのinplace=Trueの操作は動作しません。（原因の詳細がわかる方おりりましたらコメントお願いします）
ですので、inplace=True を諦めて

Python
1for i in df['CATEGORY'].unique().tolist():
2    val2 = df[df['CATEGORY']==i]['SUUJI'].mean()
3    df.loc[df['CATEGORY']==i,'SUUJI'] = df.loc[df['CATEGORY']==i,'SUUJI'].fillna(value=val2)

のように記述することで問題なく動作すると思います
あとはループを使う場合でも groupby()を使って

Python
1for grp, data in df.groupby('CATEGORY'):
2    val2 = data['SUUJI'].mean()
3    df.loc[df['CATEGORY']==grp,'SUUJI'] = data['SUUJI'].fillna(value=val2)

のように書くこともできます。

投稿2019/12/13 01:16

magichan

総合スコア15898

こんな感じでしょうか。

Python
1import pandas as pd
2import numpy as np
3
4df = pd.DataFrame({'CATEGORY':[1, 1, 1, 2 , 2, 2, 2],'SUUJI':[1.0, 2.5, np.nan, 0.9, np.nan, 0.4, 0.3]})
5
6print(df)
7"""
8   CATEGORY  SUUJI
90         1    1.0
101         1    2.5
112         1    NaN
123         2    0.9
134         2    NaN
145         2    0.4
156         2    0.3
16"""
17
18df['SUUJI'] = df.groupby('CATEGORY').transform(lambda x: x.fillna(x.mean()))['SUUJI']
19"""
20   CATEGORY     SUUJI
210         1  1.000000
221         1  2.500000
232         1  1.750000
243         2  0.900000
254         2  0.533333
265         2  0.400000
276         2  0.300000
28"""
29
30print(df)