Pandas dfのfor文内部におけるスライスと関数の引数使用でのエラー

Pandas dfの欠損の補完を検討しています。
dfは、aからdのgroup、各groupに1から5のx値、
各x値に対して欠損を含むy値から構成されています。

group毎にスライスし、各行に対して、
NaN値が有れば、他のxとy値によって補完値yを計算し、
新たな補完値列に値を代入、flag列に真値として1を代入、
実数が有れば、そのまま実数値を補完列に代入、
flag列に偽値として0を代入します。

2番目以降のgroupに対して、補完値が計算できません。
コード内にdfの内容を出力させましたが、
2番目以降のdfが空になっています。
dfのviewではなくcopyを取るなどの工夫は効果が有りませんでした。

python
1import pandas as pd
2import numpy as np
3
4df_all = pd.DataFrame(
5    data = [['a', 1, np.nan],
6       ['a', 2, 1.0],
7       ['a', 3, 3.0],
8       ['a', 4, np.nan],
9       ['a', 5, 2.0],
10       ['b', 1, 1.0],
11       ['b', 2, np.nan],
12       ['b', 3, 3.0],
13       ['b', 4, 3.0],
14       ['b', 5, np.nan],
15       ['c', 1, np.nan],
16       ['c', 2, 2.0],
17       ['c', 3, np.nan],
18       ['c', 4, 3.0],
19       ['c', 5, 1.0],
20       ['d', 1, 2.0],
21       ['d', 2, np.nan],
22       ['d', 3, 4.0],
23       ['d', 4, np.nan],
24       ['d', 5, 2.0]],
25    columns=['group', 'x', 'y'])
26
27print(df_all)
28
29def split_merge(df):
30    groups = df['group'].unique()
31    print('groups: {}'.format(groups))
32    df_out = df[:1]
33    for k in range(len(groups)):
34        df = df[5*k:5*(k+1)].copy()
35        print()
36        print('df length: {} of {} in split roop {}'.format(len(df), df['group'].unique(), k))
37        df_temp = interpolate(df)
38        df_out= pd.concat([df_out, df_temp])
39    df_out = df_out[1:]
40    df_out['flag'] = df_out['flag'].astype('int8')
41    return df_out
42
43def interpolate(df):
44    df['cal_y'] = np.nan * len(df)
45    df['flag'] = np.nan * len(df)
46    print('---splited df in interpolate function---')
47    print('df length: {}'.format(len(df)))
48    for i in range(len(df)):
49        if pd.isna(df.at[i,'y']):
50            #print('---splited df in interpolate function---')
51            print('Detected na at raw {}'.format(i))
52            df.at[i,'cal_y'] = calculate(i, df)
53            df.at[i,'flag'] = 1
54        else:
55            df.at[i,'cal_y'] = df.at[i,'y']
56            df.at[i,'flag'] = 0
57    return df
58
59def calculate(i, df):
60    sum_wj = 0
61    sum_wjyj = 0
62    for j in range(len(df)):
63        xi = df.at[i,'x']
64        xj, yj = df.at[j,'x'], df.at[j,'y']
65        if (j!=i) & (pd.notna(yj)):
66            wj = 1 / (np.sqrt((xj - xi)**2))
67            wjyj = wj * yj
68        else:
69            wj = 0
70            wjyj = 0
71        sum_wj += wj
72        sum_wjyj += wjyj
73    yi = sum_wjyj / sum_wj
74    return yi
75
76start = 0
77group_count = 2
78df = df_all[5*start:5*(start + group_count)].copy()
79print(df)
80
81
82df_out = split_merge(df)
83df_out

meg_

2021/05/18 15:41

言葉だけでは分かりにくいので、欲しい結果のデータフレームを提示出来ますでしょうか？

iwase13

2021/05/18 15:53

早速のご対応ありがとうございます。最初のgroup 'a'だけ上手く実行できたのですが、NaNがcal_yにて保管されています。ｂからdのgroupは出力されません。 group x y cal_y flag 0 a 1 NaN 1.714286 1 1 a 2 1.0 1.000000 0 2 a 3 3.0 3.000000 0 3 a 4 NaN 2.200000 1 4 a 5 2.0 2.000000 0

meg_

2021/05/18 15:56

こちらが「最終的に欲しい結果」ですか？

iwase13

2021/05/18 16:07

エラーが生じており結果の全部を得ているわけではないので、これは「最終的に欲しい結果」ではありません。エラーが解消されば、group b以降でも、上記のa groupと同様な結果を得たいです。

ppaul

2021/05/19 00:38

本題ではありませんが、補間の値と正しい値との差が大きすぎるように思います。二次のラグランジュ補間だと、ほとんど誤差は出ないですよ。

iwase13

2021/05/19 07:46

ppaulさん、コメントありがとうございます。この補完計算はダミーで、実際にはspline補完などリーズナブルなものを適応しようと思っています。

行動規範の内容に同意します

回答3件

ご質問の回答になっているかどうか良くわかりませんが、こういう方法もあります。
numpyのpolyfitという多項式近似とpoly1dによる近似式による値を使ったものです。
別の近似式を使うのであれば、f=の部分をその関数定義に変更すれば使えるはずです。
df_listは長さ4のリストでa,b,c,dそれぞれが入っています。
全部合わせて長さ20のDataFrameの方がdf_concatです。

python
1import pandas as pd
2import numpy as np
3
4def modify(df):
5    f = np.poly1d(np.polyfit(df.dropna()['x'], df.dropna()['y'], 2))
6    dfcopy = df.copy()
7    dfcopy['y'] = df.apply(lambda row: f(row['x']) if row['flag'] else row['y'], axis=1)
8    return dfcopy
9
10df_all['flag'] = 1
11df_all['flag'].where(df_all['y'].isna(), 0, inplace=True)
12df_list = [modify(df) for _, df in df_all.groupby('group')]
13print(df_list[3])
14df_concat = pd.concat(df_list)
15print(df_concat)

実行結果

python
1>>> print(df_list[3])
2   group  x    y  flag
315     d  1  2.0     0
416     d  2  3.5     1
517     d  3  4.0     0
618     d  4  3.5     1
719     d  5  2.0     0

python
1>>> print(df_concat)
2   group  x         y  flag
30      a  1 -2.666667     1
41      a  2  1.000000     0
52      a  3  3.000000     0
63      a  4  3.333333     1
74      a  5  2.000000     0
85      b  1  1.000000     0
96      b  2  2.333333     1
107      b  3  3.000000     0
118      b  4  3.000000     0
129      b  5  2.333333     1
1310     c  1 -1.000000     1
1411     c  2  2.000000     0
1512     c  3  3.333333     1
1613     c  4  3.000000     0
1714     c  5  1.000000     0
1815     d  1  2.000000     0
1916     d  2  3.500000     1
2017     d  3  4.000000     0
2118     d  4  3.500000     1
2219     d  5  2.000000     0

投稿2021/05/20 09:43

ppaul

総合スコア24672

iwase13

2021/05/25 14:20

ppaulさん返信遅れ申し訳ありません。難しかったので、咀嚼するのに時間を要しました。 dfのスライス、falg付けにForを使っていませんね。近似はy値がNaNの行をdropして2次関数fを定義、lambda関数でyの近似値を代入するのですね。自分でもこんなコードが書けるように精進したいと思います。質問が1つ。 if row['flag'] はrow['flag']が「１」ならTrueと扱われるのでしょうか？

行動規範の内容に同意します

ベストアンサー

split_merge()のなかのループで、dfを変更してしまっているのが問題です。

python
1    for k in range(len(groups)):
2        df = df[5*k:5*(k+1)].copy()

ループの1回目で、df = df[0:5]と5行目までだけのものになってしまうので、次のループで6行目以降を取り出したときに空になります。
違う変数名を使うようにすればいいです。

上記変更をすると、interpolate()とcalculate()で別のエラーが出ると思います。

python
1    for i in range(len(df)):
2        if pd.isna(df.at[i,'y']):

df.at[i, 'y']のiは行番号ではなくインデックスで指定します。
なのでrangeを使った行番号ではなく、インデックスでループしないといけないです。

python
1    for i in df.index:
2        if pd.isna(df.at[i,'y']):

投稿2021/05/19 00:57

bsdfan

総合スコア4915

iwase13

2021/05/19 07:57

bsdfanさん、ありがとうございます！正常に動くようになりました。動作しない理由、対策も分かりやすく説明して下さり勉強になりました。 in df.indexで何がリストになっているかを確認してみました。スライスして別名で作られたdf_xxに対しても、元のdfのindexを番号が割り当てられているのですね。そうであれば、range(len(df))では、.locなどが出来ないのも納得です。

行動規範の内容に同意します

当方ではエラーが発生しなかったため、split_merge()を変更しgroupby()を使用しました。

Python
1def split_merge(df):
2    df = df.reset_index(drop=True)
3    df_out = interpolate(df)
4    df_out['flag'] = df_out['flag'].astype('int8')
5    return df_out

python
1result = df_all.groupby('group').apply(split_merge)
2print(result)
3#        group  x    y     cal_y  flag
4#group                                
5#a     0     a  1  NaN  1.714286     1
6#      1     a  2  1.0  1.000000     0
7#      2     a  3  3.0  3.000000     0
8#      3     a  4  NaN  2.200000     1
9#      4     a  5  2.0  2.000000     0
10#b     0     b  1  1.0  1.000000     0
11#      1     b  2  NaN  2.200000     1
12#      2     b  3  3.0  3.000000     0
13#      3     b  4  3.0  3.000000     0
14#      4     b  5  NaN  2.714286     1
15#c     0     c  1  NaN  2.052632     1
16#      1     c  2  2.0  2.000000     0
17#      2     c  3  NaN  2.200000     1
18#      3     c  4  3.0  3.000000     0
19#      4     c  5  1.0  1.000000     0
20#d     0     d  1  2.0  2.000000     0
21#      1     d  2  NaN  2.857143     1
22#      2     d  3  4.0  4.000000     0
23#      3     d  4  NaN  2.857143     1
24#      4     d  5  2.0  2.000000     0

投稿2021/05/18 16:58

meg_

総合スコア10923

iwase13

2021/05/19 07:44

有難うございました。残念ながら、df = df.reset_index(drop=True) を使ったsplit_merge() では、NaNがNaNのまま出力され、megさんのような結果は得られませんでした。また、この方法では、補完の計算をgroup毎で演算するのではなく、全groupの全行に対して演算してしまうと思料します。

meg_

2021/05/19 10:54

「df_all.groupby('group').apply(split_merge)」でグループ毎にsplit_mergeを適用しているはずですが、質問者さんの環境では動作しませんでしたか？

meg_

2021/05/19 10:57

bsdfanさんの回答にて解決されたようなので良かったです。もしかして、あえてgroupbyを使用しない方法での実装を希望されてましたか？

iwase13

2021/05/19 13:10

megさん、ありがとうございます。動作いたしました。理解が足りませんでした。 groupbyについては知見がなく、避けていた訳ではありません。 df.allに対して直接.groupby('group').apply(split_merge)メソッドを適応させ、resultとして結果を得るのですね。私が作ったコードのsplit_merge()だけをmegさんのsplit_merge()に置き換えただけだったので正常に動作しませんでした。 df_all.groupby('group')でデータ分割し、.apply(split_merge)で分割データに対して演算するのですね。for文を使わないので、大量データの場合は、megさんの方法が高速かもしれませんね。

行動規範の内容に同意します

あなたの回答