pandasでのデータ操作方法について．3連続で要素が存在する部分を抽出したい

欠損が多いデータフレームから，横に3連続以上要素（データ）が存在している部分だけ残すデータフレームを作成したいのですが，上手く該当部分だけ抽出することが出来ず，困っています．
ご教授いただければ幸いです．

具体的なやりたいことは，
df1があったとき
|A|B|C|D|E|F|G
|:--|:--:|--:|
|NaN|4|2|3|NaN|NaN|6
|NaN|NaN|2|5|4|5|NaN
|NaN|1|2|NaN|4|5|NaN
|1|1|2|NaN|4|5|6

1行目B～D列のように要素が3連続以上存在する場合はその部分だけ抽出して，要素が存在しても3連続未満の場合はNaNにしたいです．
抽出した結果できるデータフレームは下の表のようになっているのが理想です．
|A|B|C|D|E|F|G
|:--|:--:|--:|
|NaN|4|2|3|NaN|NaN|NaN
|NaN|Nan|2|5|4|5|NaN
|NaN|NaN|NaN|NaN|NaN|NaN|NaN
|1|1|2|NaN|4|5|6

現在，書いたコードと結果は下記のとおりです．
3行目E，F列をNaNにしたいのですが，どうしたら思い通りに出力されるのかわかりません．

python3.6
1import pandas as pd
2
3dff1=df1.copy()
4
5for n in range(5):
6    if n == 0:
7        dff1.loc[dff1.iloc[:,n:n+3].isnull().any(axis=1),collist[n:n+3]]="NaN"
8        
9    else:
10        dff2 = df1.copy()
11        dff2.loc[dff2.iloc[:,n:n+3].isnull().any(axis=1),collist[n:n+3]]="NaN"
12        dff1.iloc[:,n:n+3]=dff1.replace("NaN",dff2.iloc[:,n:n+3])

結果：
|A|B|C|D|E|F|G
|:--|:--:|--:|
|NaN|4|2|3|NaN|NaN|NaN
|NaN|Nan|2|5|4|5|NaN
|NaN|NaN|NaN|NaN|4|5|NaN
|1|1|2|NaN|4|5|6

行動規範の内容に同意します

回答1件

ベストアンサー

各行に対して以下のfillNaN関数を適用すればよいかと思います。

Python
1a = [[None,4,2,3,None,None,6],
2    [None,None,2,5,4,5,None],
3    [None,1,2,None,4,5,None],
4    [1,1,2,None,4,5,6]]
5
6df = pd.DataFrame(a,columns=[i for i in 'abcdefg'])
7print(df)
8
9def fillNaN(row):
10    prev = [] # 非NaNな要素位置
11    for i,v in enumerate(row):
12        if np.isnan(v):
13            if len(prev) < 3: # それまでの非NaNな要素が３個未満
14               for i in prev: # NaNに置き換え
15                    row[i] = np.NaN
16            prev = []
17        else:# 非NaNな要素位置を記録しておく
18            prev.append(i)
19
20    if len(prev) < 3:
21       for i in prev:
22            row[i] = np.NaN
23
24    return row
25
26df2 = df.apply(func,axis=1)
27print(df2)
28"""
29     a    b    c    d    e    f    g
300  NaN  4.0  2.0  3.0  NaN  NaN  NaN
311  NaN  NaN  2.0  5.0  4.0  5.0  NaN
322  NaN  NaN  NaN  NaN  NaN  NaN  NaN
333  1.0  1.0  2.0  NaN  4.0  5.0  6.0
34"""