大容量csvから指定した行だけpandasでデータフレームに読み込むみたい。

大容量CSVをどうしてもpandasで処理したくて、
最初の行から分割して読み込み、処理済みのcsvファイルに追記するコードを作成しています。

下記コードを作成しましたが、結果は３行のデータファイルができるだけです。
予定では３００行のデータファイルができるはずだったのですが・・・

どこに問題があるのか　または　もっと良い方法があればアドバイスをお願いします。

import numpy as np
import pandas as pd

files1 = "./big_data.csv"
files2 = "./test.csv"

df= pd.read_csv(files1,skiprows=lambda x: x not in [0,100])
df.to_csv(files2,header=True)

df= pd.read_csv(files1,skiprows=lambda x: x not in [101,200])
df.to_csv(files2,mode='a', header=False)

df= pd.read_csv(files1,skiprows=lambda x: x not in [201,300])
df.to_csv(files2,mode='a', header=False)

takasima20

2020/09/08 03:07

元ファイルを 100 行づつに分割した方がはやいんじゃ? ちなみに skiprows は先頭から指定された分読み飛ばすオプションみたいス。

行動規範の内容に同意します

回答2件

リスト[0, 100]には、「0から100まで」みたいな意味はありません。「要素0と100を持つリスト」です。

lambda x: x not in [0, 100]は、「xの値が0か100でなければTrue」になるので、skiprowsにこれを指定すると、(0オリジンで数えて)0行目(先頭)と100行目以外は読み飛ばされて、その結果「0行目と100行目だけ読み込まれる」ことになります。

意図しているのは、「0行目から100行目まで読み込む(それ以外は読み飛ばす)」ことですよね。それならば、range()を使って、lambda x: x not in range(0, 101)としてください(rangeの第2引数には、最終値+1を指定する必要があります)。

なお、list(range(0, 101))としてわざわざ0から100までのリストを作る必要はありません。range型のままでinが使えます。

投稿2020/09/08 03:24

編集2020/09/08 03:26

Daregada

総合スコア11992

ベストアンサー

skiprowsのlambdaのnot inで抽出してくれるのは指定したリストの一つ一つの要素なので、
そのように指定しても範囲では取得してくれません。
なのでrangeを利用して範囲の全要素をもつリストを作成すればいいです。

python
1import pandas as pd
2
3files1 = "./data/big_data.csv"
4files2 = "./data/test.csv"
5
6df= pd.read_csv(files1,header=None,skiprows=lambda x: x not in range(0,101))
7df.to_csv(files2,header=True)
8
9df= pd.read_csv(files1,header=None,skiprows=lambda x: x not in range(101,201))
10df.to_csv(files2,mode='a', header=False)
11
12df= pd.read_csv(files1,header=None,skiprows=lambda x: x not in range(201,301))
13df.to_csv(files2,mode='a', header=False)