fillnaでの欠損値の補完

Question

具体的なコードで申し訳ないのですが、
"Sectort Type" = "SH"の"施設内うつ病患者総定数"の値を、
「同セクタータイプの平均値で補完」しようと下記のコードを書きましたが、
欠損値が補完されず、#N/Aのままで残ってしまいます。
この場合適切なコーディングは何でしょうか。

```python
df001[df001["Sector Type"] == "SH"]["施設内患者想定総数"].fillna(df001[df001["Sector Type"] == "SH"]["施設内患者想定総数"].describe()["mean"],inplace=True)
```

どなたかご教示頂きますと幸いです。

Accepted Answer

以下の warning が出ていませんか？

```
A value is trying to be set on a copy of a slice from a DataFrame
See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
```

pandas のインデックス操作の結果や関数の返り値は必要に応じて、元のデータフレームを参照する view、またはコピーになります。
今回、df001[df001["Sector Type"] == "SH"] の結果はコピーとなるため、元の Data Frame とは別の Data Frame となります。
そのため、そのコピーに対して、fillna() で値を変更しても元の Data Frame には反映されません。
以下のように fillna() した結果を同じ範囲に代入する形をとってください。

```python
import pandas as pd
import numpy as np

df = pd.DataFrame({"Col1": ["A", "A", "B", "B"], "Col2": [1, np.nan, 3, 4]})
print(df)
#   Col1  Col2
# 0    A   1.0
# 1    A   NaN
# 2    B   3.0
# 3    B   4.0

# 作成されたコピーに対して、fillna() してるので、元の DataFrame である df は変更されない。
df[df["Col1"] == "A"]["Col2"].fillna(1, inplace=True)

print(df)
#   Col1  Col2
# 0    A   1.0
# 1    A   NaN
# 2    B   3.0
# 3    B   4.0
# 以下のように代入して置き換えればよい。
df.loc[df["Col1"] == "A", "Col2"] = df.loc[df["Col1"] == "A", "Col2"].fillna(2)
print(df)
#   Col1  Col2
# 0    A   1.0
# 1    A   2.0
# 2    B   3.0
# 3    B   4.0
```

質問者さんのコードの場合、以下のようになります。

```python
cond = df001["Sector Type"] == "SH", "施設内患者想定総数"  # 置換範囲
mean = df001.loc[cond].mean()
df001.loc[cond] = df001.loc[cond].fillna(mean)
```

関連した質問