回答率: 85.30%

質問するログイン新規登録

トップに関する質問大量の数のjson形式の読み込みスピード比較

編集履歴

質問編集履歴

1

追記を書き加えた

2020/10/22 05:30

投稿

スコア33

title CHANGED Viewed

	@@ -1,1 +1,1 @@
1	- 大量のjson形式の読み込みスピード比較
1	+ 大量の数のjson形式の読み込みスピード比較

body CHANGED Viewed

@@ -4,9 +4,57 @@
 調べてみると，jsonはデータ量に比例して読み込みスピードの時間が多くなると出てきました．
 そこで，質問なのですが，このスピードを速くすることはデータをjson形式のままですることは可能なのでしょうか？
 例えば，pythonの特定のライブラリを使うと速くなる or R言語やc++を用いると速くなるなどの情報を頂けると嬉しいです．
+目標はこれら全てをdataframeにしたいです．
+### 発生している問題・エラーメッセージ
+boto3でローカルで読み取った時のコードです．
+```python
+path1 = f"s3://mybucket"
+import time
+import awswrangler as wr
+import boto3
+start = time.time()
+my_session = boto3.Session(aws_access_key_id='***', aws_secret_access_key='***',  region_name='***')
+wr.s3.read_json(path1, boto3_session=my_session)
+elapsed_time = time.time() - start
+print(elapsed_time)
+```
+### 該当のソースコード
+下のjsonファイルを読み込むのに30秒ほどかかりました．これと同程度のjsonファイルが約261000個ほどあります．
+```json
+{
+  "format": "json",
+  "payload": {
+    "created_at": "20200101 18:45:20.000",
+    "AAA": "aaa",
+    "BBB": "bbb",
+    "ID": "1",
+    "purification": "CCC",
+    "status_bit": [
+      {
+        "device": "D00800.00",
+        "name": "処理停止中",
+        "float": false
+      },
+     (上のdeviceがこのあと，およそ500項目ある．teratailの字数制限に引っかかるので略．各deviceの文字の長さは全て同程度．)
+    ]
+  },
+  "qos": 0,
+  "timestamp": 1602755120,
+  "topic": "sample"
+}
+```
 ### 補足情報（FW/ツールのバージョンなど）
-現在,jsonはawsのs3に貯まっており，boto3ライブラリやaws Glueを使用してみましたがうまくいきません（遅かった）でした．
+現在,jsonはawsのs3に貯まっており，boto3ライブラリやaws Glueを使用してみましたがうまくいきません（遅かった）でした．
+#
+．