Pandasで分割した場合でも重複削除を行いたい。

Question

### 前提・実現したいこと

pandasで下記のプログラムのように書いて分割した場合にデータ全体を見る処理を行うことができるのかどうかを知りたいです。

```
data = pd.read_json('data.json', orient='records', lines=True, chunksize=50)
```

処理の例としては、Pandasにてパネルデータの読み込みを行いデータの重複を削除を行う。などです。

他にも代表値の取得なども該当すると思います。

前提として「何らかの前処理にて分割しなくてもよいようにする」や「pandas以外の方法を使う」というのではなく分割した読み込みに対するアプローチについてお聞きしたいです。

徐々に大きくなっていくデータやメモリの都合などを考えるとPandasで単純に読み込んでしまうのは様々な問題があると思い、ドキュメントを読んでみるのですがクリティカルな回答がなく困っているという状態です(もしかしたら読み込みが浅いだけかもしれません…)

そもそも出来るか否か、出来るとして難しいのか簡単なのか。判断できずに延々とドキュメントの読み込みと検索を繰り返すことになりそうなので、これらの知識・意見などを聞かせていただけると助かります。

### 作成したプログラム・エラー

下記プログラムを実施
```
data = pd.read_json('data.json', orient='records', lines=True, chunksize=50)

data.sum()
```

表示されたエラー
```
AttributeError: 'JsonReader' Object has no attribute 'sum'
```


### 補足情報（FW/ツールのバージョンなど）

Python 3.8.10
pandas 1.0.4

Accepted Answer

できます。
ただし、`read_json`で`chunksize`を指定した場合、返ってくるのはDataFrameではなくイテレータになりますので、ループで逐次に処理する必要があります。質問者様が言われるような重複削除をしたい場合は、以下のように実装します。

```Python
import pandas as pd

'''data.json
{"col1":1,"col2":"a"}
{"col1":2,"col2":"x"}
{"col1":3,"col2":"あ"}
{"col1":2,"col2":"x"}
{"col1":4,"col2":"a"}
{"col1":1,"col2":"b"}
{"col1":1,"col2":"a"}
{"col1":1,"col2":"あ"}
{"col1":3,"col2":"あ"}
'''

reader = pd.read_json('data.json', orient='records', lines=True, chunksize=4)
df = pd.DataFrame()   # Empty DataFrame
for chunk in reader:
    df = pd.concat([df, chunk])
    df.drop_duplicates(inplace=True)
print(df)
#   col1 col2
#0     1    a
#1     2    x
#2     3    あ
#4     4    a
#5     1    b
#7     1    あ
```

参考: [Pandas公式ドキュメント - Line delimited json](https://pandas.pydata.org/pandas-docs/stable/user_guide/io.html#line-delimited-json)

参考: [pandas でメモリに乗らない 大容量ファイルを上手に扱う](https://sinhrks.hatenablog.com/entry/2014/11/21/231534)
※ JSONではなくCSVの記事です。

前提・実現したいこと

作成したプログラム・エラー

補足情報（FW/ツールのバージョンなど）

関連した質問