DataFrameにおける複数列をスマートに複数抽出したい

前提・実現したいこと

複数列から構成されているcsvファイルをread_csvで読み込む際、usecolsで任意の列を指定してDataFrameを生成しようとしています。以下にサンプルとなるcsvを示します。

sample.csv

csv
1A, B, C, D, E, F, G, H, I
21, 2, 3, 4, 5, 6, 7, 8, 9
39, 8, 7, 6, 5, 4, 3, 2, 1

例えばB, C, D, G, H列を抜き出したいとき、usecolsにはリストを渡すべきなので、

Python
1df = read_csv("sample.csv", usecols=[1, 2, 3, 6, 7])

と記述するべきと思いますが、usecolsに渡す値をもう少しスマートに記述することは可能でしょうか？
sample.csvのような少ない列数のcsvファイルだと上記表現でも良いと思うのですが、列数が増えるとusecolsに渡すリストに番号を記述する手間が多くなるのでなにか他の方法があればご紹介頂きたいです。以下、自分なりに試したことを示します。

試したこと

usecolsに渡すリストを予め用意する。

Python
1usecols=[i+1 for i in range(3)]
2usecols.extend(i+6 for i in range(2))
3df = read_csv("sample.csv", usecols=usecols)

行動規範の内容に同意します

回答3件

usecolsはヘッダー名のリストでもいいので、

python
1usecols = ['B', 'C', 'D', 'G', 'H']
2df = pd.read_csv("sample.csv", usecols=usecols)

でもいいです。

他には、関数でもよくて

python
1df = pd.read_csv(
2　　　　"sample.csv",
3　　　　usecols=lambda c: c.startswith('H') or re.match('[B-DG]', c))

みたいに、ヘッダー名を受け取って、使う・使わないをTrue/Falseで返す関数を渡します。

投稿2021/10/06 10:05

bsdfan

総合スコア4794

katamalix

2021/10/06 23:40

ラムダ式を使用した例を挙げて頂きありがとうございます。参考にさせて頂きます。

行動規範の内容に同意します

B, C, D, G, H列を抜き出したいとき

もし B, C, D, G, H列から usecols を用意したいのであれば

Python
1col = 'B, C, D, G, H'
2usecols = [ord(x) - ord('A') for x in col.split(', ')]
3print(usecols)  # [1, 2, 3, 6, 7]

あるいは

Python
1from string import ascii_uppercase as upc
2
3col = 'B, C, D, G, H'
4usecols = [upc.index(x) for x in col.split(', ')]
5print(usecols)  # [1, 2, 3, 6, 7]

投稿2021/10/06 08:45

lehshell

総合スコア1156

katamalix

2021/10/06 23:41

ありがとうございます。参考にさせて頂きます。

行動規範の内容に同意します

ベストアンサー

スマートかどうかは主観的なものですが、以下でもできます。

python
1>>> usecols = list(range(1,4)) + list(range(6,8))
2>>> print(usecols)
3[1, 2, 3, 6, 7]
4

投稿2021/10/06 07:16

ppaul

総合スコア24670

katamalix

2021/10/06 07:59

ご回答ありがとうございます。少し難しく考えすぎていました。基本に立ち返りたいと思います。

行動規範の内容に同意します

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.35%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう！

DataFrameにおける複数列をスマートに複数抽出したい

前提・実現したいこと

試したこと

関連した質問