PandasのDataFrameでの条件付き内挿

Question

### 前提・実現したいこと

以下のようなデータフレームの，欠測値の内挿を行いたいです．
そして更に，この時系列データを内挿するのに，**「欠測が1つだけ存在する場合のみ線形内挿する」**という条件を付与したいのです．
```python
df = pd.DataFrame({"田中_身長":[129, pd.np.nan, 120, 133.4, 132, 150.5, 200.5], 
                   "田中_体重":[29, 29.5, pd.np.nan, pd.np.nan, pd.np.nan, 50.5, 200], 
                   "山田_身長":[180.6, 180.5, pd.np.nan, 177.3, 169, 170.2, 160.5], 
                   "山田_体重":[80.6, 80.5, 81, pd.np.nan, 69, 70.2, 60.5]},
                  index=pd.date_range('2016/01/01 00:00', freq='1Y', periods=7))
```

### 具体例
上により作成される時系列データは

-|田中_身長|田中_体重|山田_身長|山田_体重
---:|---:|---:|---:|---:
2016-12-31|129|29|180.6|80.6
2017-12-31|NaN|29.5|180.5|80.5
2018-12-31|120|NaN|NaN|81
2019-12-31|133.4|NaN|177.3|NaN
2020-12-31|132|NaN|169|69
2021-12-31|150.5|50.5|170.2|70.2
2022-12-31|200.5|200|160.5|60.5

となりますが，これを条件通りに内挿し，以下のようなデータフレームを作成します．
-|田中_身長|田中_体重|山田_身長|山田_体重
---:|---:|---:|---:|---:
2016-12-31|129|29|180.6|80.6
2017-12-31|**124.5**|29.5|180.5|80.5
2018-12-31|120|**NaN**|**178.9**|81
2019-12-31|133.4|**NaN**|177.3|**75**
2020-12-31|132|**NaN**|169|69
2021-12-31|150.5|50.5|170.2|70.2
2022-12-31|200.5|200|160.5|60.5

このように，2つ以上欠測が連続した場合，内挿をしないようにします．



### 発生している問題
内挿するために以下の処理を行いました．

```python
df.interpolate(limit=1, method="time", limit_area='inside', limit_direction="backward")
```
しかし，このような書き方をしても，以下のような結果となり，うまくいきません（**山田の2020年の体重が線形内挿されてしまっています**）．
-|田中_身長|田中_体重|山田_身長|山田_体重
---:|---:|---:|---:|---:
2016-12-31|129|29|180.6|80.6
2017-12-31|**124.5**|29.5|180.5|80.5
2018-12-31|120|**NaN**|**178.9**|81
2019-12-31|133.4|**NaN**|177.3|**75**
2020-12-31|132|**45.25**|169|69
2021-12-31|150.5|50.5|170.2|70.2
2022-12-31|200.5|200|160.5|60.5

limitの意味合い的に正しい挙動なのは分かりますが，正しい答えを導く方法が分かりません．
rollingやresampleなども使って見ようと思いましたが，良いやり方が思いつきません．

どのようにするのが良いのでしょうか．ループを書いて一行一行処理するのは，Pythonっぽくない書き方で避けたいと思います．

よろしくお願いいたします．

Accepted Answer

以下のような操作でいけそうな気がします。

- まずは提示方法で補間（内挿）する
- 補間前がnan かつ 補間後の前後の行の値のいずれかがnan である行を特定する
- 上記の行なら補間後の値を`nan`に戻す。

以下、単純例での行の特定例です。
```Python
import pandas as pd
import numpy as np
nan = pd.np.nan

l = [nan,nan,1,2,nan,3,nan]
df1 = pd.DataFrame(l,index=pd.date_range('2016/01/01 00:00', freq='1Y', periods=len(l)))
print(df1)
"""
              0
2016-12-31  NaN
2017-12-31  NaN
2018-12-31  1.0
2019-12-31  2.0
2020-12-31  NaN
2021-12-31  3.0
2022-12-31  NaN
"""

# まずは補間する
df2 = df1.interpolate(limit=1, method="time", limit_area='inside', limit_direction="backward")
print(df2)
"""
                   0
2016-12-31       NaN
2017-12-31       NaN
2018-12-31  1.000000
2019-12-31  2.000000
2020-12-31  2.500684
2021-12-31  3.000000
2022-12-31       NaN
"""

# 補間前がnan かつ 補間後の前後の値のいずれかがnan
sr = np.isnan(df1[0]) & ( np.isnan(df2[0].shift(-1)) | np.isnan(df2[0].shift(1)) )
print(sr)
"""
2016-12-31     True
2017-12-31     True
2018-12-31    False
2019-12-31    False
2020-12-31    False
2021-12-31    False
2022-12-31     True
"""

# 上記の条件を満たす行にnanをセット
df3 = df2.copy()
df3[0][sr] = nan
print(df3)
"""
                   0
2016-12-31       NaN
2017-12-31       NaN
2018-12-31  1.000000
2019-12-31  2.000000
2020-12-31  2.500684
2021-12-31  3.000000
2022-12-31       NaN
"""
```

上記の考えを元に提示例を変換した結果は以下になります。
色々なデータで結果が意図したものになるか確認ください。
```Python
import pandas as pd
import numpy as np

df1 = pd.DataFrame({"田中_身長":[129, pd.np.nan, 120, 133.4, 132, 150.5, 200.5], 
                   "田中_体重":[29, 29.5, pd.np.nan, pd.np.nan, pd.np.nan, 50.5, 200], 
                   "山田_身長":[180.6, 180.5, pd.np.nan, 177.3, 169, 170.2, 160.5], 
                   "山田_体重":[pd.np.nan, 80.5, 81, pd.np.nan, 69, 70.2, 60.5]},
                  index=pd.date_range('2016/01/01 00:00', freq='1Y', periods=7))
print(df1)

df2 = df1.interpolate(limit=1, method="time", limit_area='inside', limit_direction="backward")
print(df2)

df3 = df2.copy()
for c in df3.columns:
    sr = np.isnan(df1[c]) & ( np.isnan(df2[c].shift(-1)) | np.isnan(df2[c].shift(1)) )
    df3[c][sr] = nan

print(df3)
"""
            田中_身長  田中_体重  山田_身長      山田_体重
2016-12-31  129.0   29.0  180.6        NaN
2017-12-31  124.5   29.5  180.5  80.500000
2018-12-31  120.0    NaN  178.9  81.000000
2019-12-31  133.4    NaN  177.3  75.008208
2020-12-31  132.0    NaN  169.0  69.000000
2021-12-31  150.5   50.5  170.2  70.200000
2022-12-31  200.5  200.0  160.5  60.500000
"""
```

Answer

```python
#nanがある行取得
null_place = df.loc[:, df.isnull().any()]　

#2回目以上なのか判定
if any(null_place.groupby(list(null_place.columns)).cumcount() >= 1)::
    pass
else:
    欠測が1つだけ存在する場合の処理
```
だと思います

Answer

試していないですが、脳内で考えてみました。
for文なしで出来るかどうかは分かりません。


１．dataframeを複製して、shiftで↓方向に1行ずらします。
２．複製テーブルの1行目に全て1のデータを挿入します
３．オリジナルのテーブルと複製したテーブルを比較して、対応する項目の値が両方NaNなら複製したテーブルのNaNのままとします。複製したテーブルの方に実数が入っている場合は、1で上書きします
４．提示している方法で欠損値補完します
５．オリジナルのテーブルと複製したテーブルを掛け算します

-	田中_身長	田中_体重	山田_身長	山田_体重
2016-12-31	129	29	180.6	80.6
2017-12-31	NaN	29.5	180.5	80.5
2018-12-31	120	NaN	NaN	81
2019-12-31	133.4	NaN	177.3	NaN
2020-12-31	132	NaN	169	69
2021-12-31	150.5	50.5	170.2	70.2
2022-12-31	200.5	200	160.5	60.5

前提・実現したいこと

具体例

発生している問題

関連した質問