大量の数のjson形式の読み込みスピード比較

前提・実現したいこと

現在，大量のjson形式のデータをpythonで読み取ろうとしているのですが，すごく時間がかかります．
調べてみると，jsonはデータ量に比例して読み込みスピードの時間が多くなると出てきました．
そこで，質問なのですが，このスピードを速くすることはデータをjson形式のままですることは可能なのでしょうか？
例えば，pythonの特定のライブラリを使うと速くなる or R言語やc++を用いると速くなるなどの情報を頂けると嬉しいです．
目標はこれら全てをdataframeにしたいです．

発生している問題・エラーメッセージ

boto3でローカルで読み取った時のコードです．

python
1path1 = f"s3://mybucket"
2import time
3import awswrangler as wr
4import boto3
5start = time.time()
6my_session = boto3.Session(aws_access_key_id='***', aws_secret_access_key='***',  region_name='***')
7wr.s3.read_json(path1, boto3_session=my_session)
8elapsed_time = time.time() - start
9print(elapsed_time)

該当のソースコード

下のjsonファイルを読み込むのに30秒ほどかかりました．これと同程度のjsonファイルが約261000個ほどあります．

json
1{
2  "format": "json",
3  "payload": {
4    "created_at": "20200101 18:45:20.000",
5    "AAA": "aaa",
6    "BBB": "bbb",
7    "ID": "1",
8    "purification": "CCC",
9    "status_bit": [
10      {
11        "device": "D00800.00",
12        "name": "処理停止中",
13        "float": false
14      },
15     (上のdeviceがこのあと，およそ500項目ある．teratailの字数制限に引っかかるので略．各deviceの文字の長さは全て同程度．)
16    ]
17  },
18  "qos": 0,
19  "timestamp": 1602755120,
20  "topic": "sample"
21}

補足情報（FW/ツールのバージョンなど）

現在,jsonはawsのs3に貯まっており，boto3ライブラリやaws Glueを使用してみましたがうまくいきません（遅かった）でした．

．

toast-uz

2020/10/21 11:11

読み込みコード、json例、どのくらい時間がかっているのかを示してください。課題が再現する程度に簡略するとともに、s3を使わないでpythonのみでローカル実行しても再現するか確かめて、それを提示ください。こういうのは意外なところがボトルネックだったりしますので、空中戦でお話いただいても、有効な解決策を得ることは難しいと思います。そもそも、「大量のjson形式のデータ」との言い方が、「巨大」という意味なのか、「多数」という意味なのかも、判別できません。

ebal

2020/10/22 04:12

1. メモリに乗るのか 2. 処理は必要なのか（見るだけなのか） 3. 環境の制限このあたりは記述してほしいです

mahc

2020/10/22 04:45

なるほどです．編集します！わざわざ，ありがとうございます！

ebal

2020/10/22 05:33

回線速度も必要かもですね……ボトルネックが通信な気がします

mahc

2020/10/22 05:37

通信速度ですか，なるほどです．ありがとうございます．

toast-uz

2020/10/22 11:52

通信ボトルネックの可能性が高いと考えて「s3を使わないでpythonのみでローカル実行しても再現するか確かめて、それを提示ください。」と最初にお願いしております。対応よろしくお願いします。

mahc

2020/10/23 00:09

import pandas as pd import json import time path2= f"/Mylocal/***.json" df_s = pd.read_json(path2) start = time.time() elapsed_time = time.time() - start print(elapsed_time) 5.078315734863281e-05 と出たので，これは通信速度ですね...．