前提・実現したいこと
pandasで下記のプログラムのように書いて分割した場合にデータ全体を見る処理を行うことができるのかどうかを知りたいです。
data = pd.read_json('data.json', orient='records', lines=True, chunksize=50)
処理の例としては、Pandasにてパネルデータの読み込みを行いデータの重複を削除を行う。などです。
他にも代表値の取得なども該当すると思います。
前提として「何らかの前処理にて分割しなくてもよいようにする」や「pandas以外の方法を使う」というのではなく分割した読み込みに対するアプローチについてお聞きしたいです。
徐々に大きくなっていくデータやメモリの都合などを考えるとPandasで単純に読み込んでしまうのは様々な問題があると思い、ドキュメントを読んでみるのですがクリティカルな回答がなく困っているという状態です(もしかしたら読み込みが浅いだけかもしれません…)
そもそも出来るか否か、出来るとして難しいのか簡単なのか。判断できずに延々とドキュメントの読み込みと検索を繰り返すことになりそうなので、これらの知識・意見などを聞かせていただけると助かります。
作成したプログラム・エラー
下記プログラムを実施
data = pd.read_json('data.json', orient='records', lines=True, chunksize=50) data.sum()
表示されたエラー
AttributeError: 'JsonReader' Object has no attribute 'sum'
補足情報(FW/ツールのバージョンなど)
Python 3.8.10
pandas 1.0.4
回答1件
あなたの回答
tips
プレビュー