S3に大きなcsvファイルがあり、これをathenaで効率よく読み込むためparquet化しようと考えています
csvファイルをparquet化する方法を調べたところ、pythonに読み込む方法が見つかりましたが、csvが大きすぎでメモリに乗りません
S3にあるcsvファイルをローカルPCのメモリに乗せずにparquet化する方法はありますでしょうか。
なお、csvファイルは1ファイルですが、parquetファイルは分割したいです。
・日付列で分割してフォルダを分けたい(athenaで読み込むときのpartitionにしたい。そのようなフォルダ構成になるとベスト)
。別のタイムスタンプ列でファイル分割して、athenaからの読み込み量や管理負荷を減らしたい(複数ファイルに分割するイメージ)
どうぞよろしくお願いいたします。
回答1件
あなたの回答
tips
プレビュー