質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.35%
Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

Q&A

解決済

3回答

4777閲覧

DataFrameにおける複数列をスマートに複数抽出したい

katamalix

総合スコア30

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

0グッド

0クリップ

投稿2021/10/06 05:02

前提・実現したいこと

複数列から構成されているcsvファイルをread_csvで読み込む際、usecolsで任意の列を指定してDataFrameを生成しようとしています。以下にサンプルとなるcsvを示します。

sample.csv

csv

1A, B, C, D, E, F, G, H, I 21, 2, 3, 4, 5, 6, 7, 8, 9 39, 8, 7, 6, 5, 4, 3, 2, 1

例えばB, C, D, G, H列を抜き出したいとき、usecolsにはリストを渡すべきなので、

Python

1df = read_csv("sample.csv", usecols=[1, 2, 3, 6, 7])

と記述するべきと思いますが、usecolsに渡す値をもう少しスマートに記述することは可能でしょうか?
sample.csvのような少ない列数のcsvファイルだと上記表現でも良いと思うのですが、列数が増えるとusecolsに渡すリストに番号を記述する手間が多くなるのでなにか他の方法があればご紹介頂きたいです。以下、自分なりに試したことを示します。

試したこと

usecolsに渡すリストを予め用意する。

Python

1usecols=[i+1 for i in range(3)] 2usecols.extend(i+6 for i in range(2)) 3df = read_csv("sample.csv", usecols=usecols)

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答3

0

usecolsはヘッダー名のリストでもいいので、

python

1usecols = ['B', 'C', 'D', 'G', 'H'] 2df = pd.read_csv("sample.csv", usecols=usecols)

でもいいです。

他には、関数でもよくて

python

1df = pd.read_csv( 2    "sample.csv", 3    usecols=lambda c: c.startswith('H') or re.match('[B-DG]', c))

みたいに、ヘッダー名を受け取って、使う・使わないをTrue/Falseで返す関数を渡します。

投稿2021/10/06 10:05

bsdfan

総合スコア4794

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

katamalix

2021/10/06 23:40

ラムダ式を使用した例を挙げて頂きありがとうございます。参考にさせて頂きます。
guest

0

B, C, D, G, H列を抜き出したいとき

もし B, C, D, G, H列から usecols を用意したいのであれば

Python

1col = 'B, C, D, G, H' 2usecols = [ord(x) - ord('A') for x in col.split(', ')] 3print(usecols) # [1, 2, 3, 6, 7]

あるいは

Python

1from string import ascii_uppercase as upc 2 3col = 'B, C, D, G, H' 4usecols = [upc.index(x) for x in col.split(', ')] 5print(usecols) # [1, 2, 3, 6, 7]

投稿2021/10/06 08:45

lehshell

総合スコア1156

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

katamalix

2021/10/06 23:41

ありがとうございます。参考にさせて頂きます。
guest

0

ベストアンサー

スマートかどうかは主観的なものですが、以下でもできます。

python

1>>> usecols = list(range(1,4)) + list(range(6,8)) 2>>> print(usecols) 3[1, 2, 3, 6, 7] 4

投稿2021/10/06 07:16

ppaul

総合スコア24670

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

katamalix

2021/10/06 07:59

ご回答ありがとうございます。 少し難しく考えすぎていました。 基本に立ち返りたいと思います。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.35%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問