DataFrame中の欠損値（NaN）の置換を行いたい

Question

41     NaN
45     NaN
51     NaN
92     NaN
100    NaN
...

というNaNのみを抽出したcolumnに数値データ（配列）を代入したいのですが
```python
 df[df['pH'].isnull()]["pH"].fillna(pH_pred)
```
で代入しようとしたところ
```python
TypeError: "value" parameter must be a scalar, dict or Series, but you passed a "ndarray"
```
というエラーが吐き出されます。


```
df.head()

	fixed acidity	volatile acidity	citric acid	residual sugar	chlorides	free sulfur dioxide	total sulfur dioxide	density	pH	sulphates	alcohol	quality
0	9.8	0.63	0.24	2.4	0.078	6.1	32.6	0.9997	3.08	0.57	9.4	5.1
1	6.1	0.34	0.25	1.8	0.084	4.0	28.0	0.9941	3.36	0.44	10.2	4.8
2	7.1	0.43	0.17	1.8	0.083	27.2	51.3	0.9941	3.51	0.63	10.4	5.5
3	8.6	0.47	0.27	1.9	0.058	17.5	37.6	0.9907	3.16	0.85	11.1	6.1
4	6.9	0.41	0.30	8.9	0.084	25.9	45.4	0.9861	3.35	0.64	10.2	5.6

```


pH_predの中身
```python

output;array([3.34, 3.40, 2.97...
```



 ```python
df[df['pH'].isnull()]["pH"]=pH_pred
```
元々上記のコートで予測値を代入しようとして、エラーを吐き出さないのですが、実際は代入されておらずfillna()で代入を試みました。

最終的には
```python
df[df['pH'].isnull()]["pH"]
```
の部分が
（例）
41     3.34
45     3.40
51     2.97
...
と出力されるようにしたいです。

NaNへ配列データを代入する場合どうしたらよいのでしょうか？

インデックスを１から順にしないといけないのでしょうか？

また 
```python
df[df['pH'].isnull()]["pH"]=pH_pred
```
で予測値を代入しようとして、エラーが出ないのに代入されていないのもわかりません。

Accepted Answer

行いたい処理はこのようなものでしょうか？

```python
>>> import pandas as pd
>>> import numpy as np
>>> df = pd.DataFrame({"pH":[1, 2, np.nan, 4, np.nan, 6, np.nan]})
>>> ph_pred = np.array([1.23, 2.34, 3.45])
>>> df
    pH
0  1.0
1  2.0
2  NaN
3  4.0
4  NaN
5  6.0
6  NaN
>>> df.loc[df["pH"].isnull(), "pH"] = ph_pred
>>> df
     pH
0  1.00
1  2.00
2  1.23
3  4.00
4  2.34
5  6.00
6  3.45
```

---

> また 
> ```python
> df[df['pH'].isnull()]["pH"]=pH_pred
> ```
> で予測値を代入しようとして、エラーが出ないのに代入されていないのもわかりません。

私の環境では警告が出ました。

```python
>>> df[df['pH'].isnull()]["pH"]=ph_pred
__main__:1: SettingWithCopyWarning: 
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
```

pandasのcopyとview関連の挙動については私も全貌を把握しきれていないので、詳細な説明は警告に示されているリファレンスに譲りたいと思います。

結論としては、locやilocを使って代入すれば問題ないです。

関連した質問