欠損値を連番で処理したい

前提・実現したいこと

pythonでデータの欠損値の処理を以下のように行いたいです
何か便利な関数や方法はないでしょうか。
よろしくお願いします

データの特徴とやりたいこと
データは必ず各行に1つだけ、30から45までしかはいらない
欠損場所を連番で補完したい
ただし、取りうるデータの範囲外はNanのままにする

df_pre

	a	b	c	d	e
1	Nan	Nan	31	Nan	Nan
2	Nan	44	Nan	Nan	Nan
3	Nan	Nan	Nan	40	Nan
4	Nan	Nan	Nan	Nan	45
.
.
.

df_post

	a	b	c	d	e
1	Nan	30	31	32	33
2	43	44	45	Nan	Nan
3	37	38	39	40	41
4	41	42	43	44	45
.
.
.

試したこと

interpolateやfillna(method='bfill')等をつかって考えましたが、行ごとに欠損部分をすでにある数値を使って前後順番に連番に埋めていく手段が思いつきませんでした

補足情報（FW/ツールのバージョンなど）

python3.6.5
jupyter-notebook

magichan

2020/04/23 02:18

仕様でわからない部分があるのですが、質問の例ではなぜ４行目は 41～44 の値が補完されないのでしょうか？

DSist

2020/04/23 03:58

失礼しました。入力ミスです。ご指摘通り、41～44 の値が補完されます。

DSist

2020/04/23 04:00

本文修正いたしました

行動規範の内容に同意します

回答1件

ベストアンサー

numpyのほうがやりやすかったのでnumpyを使っていますが、pandasだけでもできると思います。

各行の値と、その位置を取り出せば、単純なnp.arange() = [0, 1, 2, ...]との足し算、引き算で、連番は作成できます。
そして、最後に範囲外のものを削除すれば、よいです。

python
1import pandas as pd
2import numpy as np
3
4df = pd.DataFrame([[np.nan, np.nan, 31, np.nan, np.nan],
5                   [np.nan, 44, np.nan, np.nan, np.nan],
6                   [np.nan, np.nan, np.nan, 40, np.nan],
7                   [np.nan, np.nan, np.nan, np.nan, 45],],
8                  columns=list('abced'))
9
10# 各行の最大値(←なんでもいい)のインデックスと値を求める
11ix = np.nanargmax(df, axis=1)
12v = np.nanmax(df, axis=1)
13
14# [0, 1, 2, 3, 4, 5] から、インデックスを引いて、値を足すと
15# オリジナルの値をもとに連番ができる
16df_n = pd.DataFrame([np.arange(len(df.columns))], index=df.index, columns=df.columns)
17df_n = df_n.sub(ix, axis=0).add(v, axis=0)
18
19# 条件外の値をのぞく
20df_n = df_n.where((30 <= df_n) & (df_n <= 45))