Pythonによるデータ加工での大容量csvの扱い

Pythonにてメモリに乗り切らない大容量csv（数百GB）の加工の仕方についてアドバイスをください。

処理としては単純で、各レコードを一意に特定するようなIDを新たなカラムに格納していくだけなのですが、加工対象のcsvが大容量でメモリに乗らないため、どのように処理するか悩んでおります。

加工のイメージは以下の通りです。

name, amount, date
tanaka, 1000, 20180101
satou, 1200, 20180101
suzuki, 899, 20180102

といったcsvに対して

tranID, name, amount, date
0001, tanaka, 1000, 20180101
0002, satou, 1200, 20180101
0003, suzuki, 899, 20180102

といった形式で、一意となるIDをふるイメージです。

メモリにのる量であれば、panadsを使ってdataframeでtranIDを必要レコード数分作成し、結合すればよいかと思ったのですが、
今回ファイルサイズが大きいため、1行ずつの処理などが必要と思っておりますが、
いまいちいい書き方が思いつかず、アドバイスをいただけますと幸いです。

使用している環境はPython3系になります。
よろしくお願いいたします。

Kunihiro_Narita

2018/05/14 05:43

単純にIDをふるだけなら「1行分を文字列として読む、文字列の先頭にIDを付与する、文字列を1行書く」だけで、わざわざ聞くような話でもないですよね。本当に聞きたいことはBigDataを扱うプログラムの書き方ではないですか？

tom_drums

2018/05/17 05:49

仰る通りで、大目的としてはpythonでbig dataを扱う場合の処理方法を知る必要があるのが背景です。ただ、当方初学者のため、「「1行分を文字列として読む、文字列の先頭にIDを付与する、文字列を1行書く」という処理を巨大なファイルに対して実施する際の書き方に自信がなく、このような質問をさせていただきました。

行動規範の内容に同意します

回答4件

python上で何らかの発展を考えているなら完全に趣旨違いとなりますが、こういう大きなファイルに対して「一行読んで処理してそのまま読み捨てる」処理だけを試みるなら、awkやperlを使ったほうが遥かにシンプルですね。

sh
1awk 'NR==1{printf("tranID,")} NR>1{printf("%04d,",NR-1)} {print}' input.csv

投稿2018/05/14 05:03

KojiDoi

総合スコア13727

tom_drums

2018/05/17 05:46

ありがとうございます。たしかにawkやperlだと簡単そうですね。今回は、諸事情ありpythonで処理が必要だったため、他の方をベストアンサーにさせていただきました。

行動規範の内容に同意します

ベストアンサー

これでCSVを1行ずつコピーしていくコードになるので、これを発展させれば目的の処理は達成できると思います。

python
1from csv import reader, writer
2
3with open("input.csv", encoding="utf-8-sig") as fin:
4    with open("output.csv", "w", encoding="utf-8-sig", newline='') as fout:
5        wt = writer(fout)
6        for row in reader(fin):
7            wt.writerow(row)

投稿2018/05/14 01:55

YouheiSakurai

総合スコア6155

tom_drums

2018/05/17 05:47

ありがとうございます。いただいたコードをもとに発展させてやりたい処理が実現できました。

行動規範の内容に同意します

一度に扱えないサイズのBigDataを処理するための汎用的な話をしますね。

BigDataを扱うには、元となるデータを一度に処理可能な量（数十MB程度）に分割して処理を行うバッチ処理か、最小単位のデータ（１行）毎に処理を行うストリーム処理の何れかになります。

ビッグデータを処理するための環境として知られているApatch Hadoopは前者を、RDBに対するSQL文の処理などは後者の方法を使っています。

今回のように一行ずつのデータに対して処理を行う場合には、バッチ処理でもストリーム処理でも良いのですが、複数の行にまたがった計算処理を行う場合にはバッチ処理でないと難しくなります。例えば時系列にそった移動平均を計算しようとするなら、元となるデータを時系列順に並び替えなくてはなりません。ですが並び替える処理は多くのメモリを使用するため、データ量が多いと一度にはできません。こういう部分はストリーム処理では実現できず、バッチ処理になります。

またビッグデータの処理では、どのような中間データを出力するかが肝になります。移動平均を算出する場合には「順不同の元データ→各月毎のデータに分割→各月毎のデータを並び替え→月毎のデータを結合→移動平均算出」のように、何段階かのバッチ処理に分ける必要があるでしょう。この時に汎用性を考えた中間データを作成しておかないと、異なる集計を行う場合に最初からやり直すために、多くの時間がかかる事になります。

投稿2018/05/18 14:30

Kunihiro_Narita

総合スコア472