前提・実現したいこと
jupyter notebookの %store
というマジックコマンドを使って、4GiB以上のpandas dataframeを格納したいです。
発生している問題・エラーメッセージ
データが10GBほどあるため、大きすぎるゆえのエラーが出ます。
OverflowError: cannot serialize a bytes object larger than 4 GiB
該当のソースコード
Python
1import pandas as pd 2df = pd.read_csv("large_data.csv") 3 4%store df #ここでエラーがでます
試したこと
とりあえずjoblib
パッケージを使いjoblib.dump()
で保存できました。
また、%store
マジックコマンドは内部でpickleを使っていると聞きます。
調べてみてpickle.dump()を使う際protocolに4を指定すると大きいファイルも格納できるということがわかりましたが、protocolの指定を %store
マジックコマンドを使う際にどうやったらいいのかがわからないままです。
補足情報(FW/ツールのバージョンなど)
Anaconda3を使っています
Jupyter 5.7.8、Python 3.7.3です。
OSはCent OS 7です。
あなたの回答
tips
プレビュー