やりたいこと

以下のようなデータフレームがあります。

python
1df = pd.DataFrame(np.array([
2    [np.nan, np.nan, 0.1, 0.1],
3    [np.nan, 0.0, 0.2, 0.4],
4    [np.nan, np.nan, np.nan, 0.0],
5    [0.8, 0.6, 0.4, 0.2],
6    [np.nan, 1, 0.9, 1],
7]))

col_1	col_2	col_3	col_4
NaN	NaN	0.1	0.1
NaN	0.0	0.2	0.4
NaN	NaN	NaN	0.0
0.8	0.6	0.4	0.2
NaN	1	0.9	1

これを以下の用に変換したいです。

col_1	col_2	col_3	col_4
0.1	0.1	NaN	NaN
0.0	0.2	0.4	NaN
0.0	NaN	NaN	NaN
0.8	0.6	0.4	0.2
1	0.9	1	NaN

やったこと

各業をリストに変換してデータフレームに戻すことを試みましたが、リストの欠損値の消し方がわからず断念しました。

col_1
[nan,nan,0.1,0.1]
[nan,0.0,0.2,0.4]
[nan,nan,nan,0.0]
[0.8,0.6,0.4,0.2]
[nan,1,0.9,1]

→ 欠損値削除ができない

よろしくお願いいたします。

行動規範の内容に同意します

回答2件

ベストアンサー

基本的にはnomukenさんと同じなのですが、元のColumn名をそのまま使いたいのであれば、もう少し処理が必要になります。

Python
1import pandas as pd
2import numpy as np
3
4df = pd.DataFrame(
5    [[np.nan, np.nan, 0.1, 0.1],
6     [np.nan, 0.0, 0.2, 0.4],
7     [np.nan, np.nan, np.nan, 0.0],
8     [0.8, 0.6, 0.4, 0.2],
9     [np.nan, 1, 0.9, 1]],
10    columns=['col_1','col_2','col_3','col_4'])
11
12df = df.apply(lambda d: d.dropna().reset_index(drop=True), axis=1).rename(pd.Series(df.columns.values), axis=1)
13print(df)
14#   col_1  col_2  col_3  col_4
15#0    0.1    0.1    NaN    NaN
16#1    0.0    0.2    0.4    NaN
17#2    0.0    NaN    NaN    NaN
18#3    0.8    0.6    0.4    0.2
19#4    1.0    0.9    1.0    NaN

もしくはシンプルに

Python
1col = df.columns.values
2df = df.apply(lambda d: d.dropna().reset_index(drop=True), axis=1)
3df.columns = col

のようにも記述してもよいかもしれません。
ただし、この方法ではNaNを削除した結果、全体の列数が変わった場合はエラーとなります

投稿2019/11/21 00:29

magichan

総合スコア15898

退会済みユーザー

2019/11/21 13:15

ありがとう御座います

行動規範の内容に同意します

こうかな・・・

Python
1import pandas as pd
2import numpy as np
3
4df = pd.DataFrame(np.array([
5    [np.nan, np.nan, 0.1, 0.1],
6    [np.nan, 0.0, 0.2, 0.4],
7    [np.nan, np.nan, np.nan, 0.0],
8    [0.8, 0.6, 0.4, 0.2],
9    [np.nan, 1, 0.9, 1],
10]))
11
12df = df.apply(lambda x: x.dropna().reset_index(drop=True), axis=1)
13print(df)