Python df 〜以下の列を削除するには？

前提・実現したいこと

Python pd.dfで以下のような複数データあるとき、5行以下の列のみ削除するにはどうすれば良いでしょうか？
欲しい結果としてはA列、B列、D列のみ抽出し、C、E列は削除するようなイメージです。

A    B    C   D    E

0 1 1 1 1 1
1 2 2 2 2 2
2 3 3 3 3 NaN
3 4 4 4 4 NaN
4 5 5 NaN 5 NaN　　
5 6 6 NaN 6 NaN
6 7 7 NaN 7 NaN
7 8 8 NaN 8 NaN
8 9 NaN NaN 9 NaN
9 10 NaN NaN 10 NaN

該当のソースコード

Python
1import pandas as pd
2
3df = pd.DataFrame({ 'A' : [1,2,3,4,5,6,7,8,9,10],
4                    'B' : [1,2,3,4,5,6,7,8,'NaN','NaN'],
5                    'C' : [1,2,3,4,'NaN','NaN','NaN','NaN','NaN','NaN'],
6                    'D' : [1,2,3,4,5,6,7,8,9,'NaN'],
7                    'E' : [1,2,'NaN','NaN','NaN','NaN','NaN','NaN','NaN','NaN']
8                    })
9# print(df)
10
11#df.drop()

試したこと

drop()とlen()を組み合わせてみるも上手く回らず。

行動規範の内容に同意します

回答2件

ベストアンサー

シンプルな解答

python
1df.loc[:, (df != 'NaN').sum() > 5]
2#     A    B    D
3# 0   1    1    1
4# 1   2    2    2
5# 2   3    3    3
6# 3   4    4    4
7# 4   5    5    5
8# 5   6    6    6
9# 6   7    7    7
10# 7   8    8    8
11# 8   9  NaN    9
12# 9  10  NaN  NaN

FutureWarningが出ますが気にしなくて大丈夫です。エラーが気になる場合は.isin()を使った、より速いコードがあります。

python
1
2%%timeit
3df.loc[:, (df != 'NaN').sum() > 5]
4# 1.23 ms ± 35.5 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)
5
6%%timeit
7df.loc[:, (~df.isin({'NaN'})).sum() > 5]
8# 1.06 ms ± 7.88 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)

@can110氏のコード

python
1%%timeit
2df.drop(columns=[c for c in df.columns
3                 if sum(~np.isnan(df.replace('NaN', np.nan)[c])) < 5])
4# 5.56 ms ± 30.7 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)

*今回の場合、df.replace('NaN', np.nan)はdf.astype(float)で代用可能です。

python
1%%timeit
2df.loc[:, (~np.isnan(df.astype(float).to_numpy())).sum(0) > 5]
3# 779 µs ± 3.16 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)
4
5%%timeit
6df.loc[:, np.isfinite(df.astype(float).to_numpy()).sum(0) > 5]
7# 767 µs ± 3.87 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)

さらに速くなりました。

投稿2020/02/19 07:18

編集2020/02/19 09:07

kirara0048

総合スコア1399

HK--

2020/02/19 09:27

ありがとうございます！勉強になります。こんなにも速くなるものなんですね。

行動規範の内容に同意します

以下のような感じで有効な数値が５個未満の列を抽出しdropすればよいです。

Python
1import pandas as pd
2import numpy as np
3
4df = pd.DataFrame({ 'A' : [1,2,3,4,5,6,7,8,9,10],
5                    'B' : [1,2,3,4,5,6,7,8,'NaN','NaN'],
6                    'C' : [1,2,3,4,'NaN','NaN','NaN','NaN','NaN','NaN'],
7                    'D' : [1,2,3,4,5,6,7,8,9,'NaN'],
8                    'E' : [1,2,'NaN','NaN','NaN','NaN','NaN','NaN','NaN','NaN']
9                    })
10df = df.replace('NaN', pd.np.nan) # 'NaN' -> NaN値へ
11
12drops = []
13for c in df.columns:
14    if sum(~np.isnan(df[c])) < 5: # 有効な数値が５個未満
15        drops.append(c)
16
17drops = [c for c in df.columns if sum(~np.isnan(df[c])) < 5 ] # あるいはこれでもよい
18
19df = df.drop(columns=drops)
20print(df)
21#    A    B    D
22#0   1  1.0  1.0
23#1   2  2.0  2.0
24# :