回答編集履歴

一部修正

2021/07/17 23:36

投稿

toast-uz

スコア3266

answer CHANGED Viewed

@@ -1,5 +1,5 @@
 できます。
-ただし、`read_json`で`chunksize`を指定した場合、返ってくるのはDataFrameではなくジェネレータになりますので、ループで逐次に処理する必要があります。質問者様が言われるような重複削除をしたい場合は、以下のように実装します。
+ただし、`read_json`で`chunksize`を指定した場合、返ってくるのはDataFrameではなくイテレータになりますので、ループで逐次に処理する必要があります。質問者様が言われるような重複削除をしたい場合は、以下のように実装します。
 ```Python
 import pandas as pd
@@ -18,8 +18,8 @@
 reader = pd.read_json('data.json', orient='records', lines=True, chunksize=4)
 df = pd.DataFrame()   # Empty DataFrame
-for r in reader:
+for chunk in reader:
-    df = pd.concat([df, r])
+    df = pd.concat([df, chunk])
     df.drop_duplicates(inplace=True)
 print(df)
 #   col1 col2
@@ -31,6 +31,7 @@
 #7     1    あ
 ```
-jsonではなくcsvの記事ですが、chunksizeを使っている記事がありますので、参考にしてください。
+参考: [Pandas公式ドキュメント - Line delimited json](https://pandas.pydata.org/pandas-docs/stable/user_guide/io.html#line-delimited-json)
-参考: [pandas でメモリに乗らない 大容量ファイルを上手に扱う](https://sinhrks.hatenablog.com/entry/2014/11/21/231534)
+参考: [pandas でメモリに乗らない 大容量ファイルを上手に扱う](https://sinhrks.hatenablog.com/entry/2014/11/21/231534)
+※ JSONではなくCSVの記事です。

一部修正

2021/07/17 23:36

投稿

toast-uz

スコア3266

answer CHANGED Viewed

@@ -1,4 +1,5 @@
+できます。
-できます。`read_json`で`chunksize`を指定した場合、返ってくるのはDataFrameではなくジェネレータになりますので、ループで処理する必要があります。質問者様が言われるような重複削除をしたい場合は、以下のように実装します。
+ただし、`read_json`で`chunksize`を指定した場合、返ってくるのはDataFrameではなくジェネレータになりますので、ループで逐次に処理する必要があります。質問者様が言われるような重複削除をしたい場合は、以下のように実装します。
 ```Python
 import pandas as pd

一部修正

2021/07/17 23:29

投稿

toast-uz

スコア3266

answer CHANGED Viewed

@@ -16,7 +16,7 @@
 '''
 reader = pd.read_json('data.json', orient='records', lines=True, chunksize=4)
-df = pd.DataFrame([])
+df = pd.DataFrame()   # Empty DataFrame
 for r in reader:
     df = pd.concat([df, r])
     df.drop_duplicates(inplace=True)