業務でPandasを用いて大容量のcsvファイル(40G超×5個、PCの残容量800MB)を分析する必要があるのですが、何か良い方法ありますでしょうか。read_csvではMemory Errorになってしまい、ここまでpandasを用いた各種の方法(http://sinhrks.hatenablog.com/entry/2014/11/21/231534 等、ネットに記載されている方法はほぼ一通り)を1か月ほどかけて試行しましたがいずれも同様でした。ポリシーにより当該PCで作業する必要があり、ファイルの別の場所への退避もNGという状況です。
いま考えていることは
・python以外でも良いので、何等かの方法でファイルを読み込み、不要な列が半分ほどあるのでそれを削除し、上書きすればファイルのサイズが半分ほどに圧縮されるのではないか
・その上で、read_csvすればmemory errorにならないのではないか?
と考えています。
Powershellでファイルを分割する方法(http://souegg2.hatenablog.com/entry/2017/10/16/202230 等)
は試したのですが、分割後のファイルは一行一行が文字列?になってしまっているようでして
(powershellのget-contentで開くと各行が"A,B,C,..."の様にダブルクォーテーションで括られて表示されます)
read_csvするとエラーになります。。何か良い方法ございましたらご教示下さい。
回答1件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2019/11/14 08:33