質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.35%
JSON

JSON(JavaScript Object Notation)は軽量なデータ記述言語の1つである。構文はJavaScriptをベースとしていますが、JavaScriptに限定されたものではなく、様々なソフトウェアやプログラミング言語間におけるデータの受け渡しが行えるように設計されています。

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

Q&A

解決済

2回答

8584閲覧

大量の数のjson形式の読み込みスピード比較

mahc

総合スコア33

JSON

JSON(JavaScript Object Notation)は軽量なデータ記述言語の1つである。構文はJavaScriptをベースとしていますが、JavaScriptに限定されたものではなく、様々なソフトウェアやプログラミング言語間におけるデータの受け渡しが行えるように設計されています。

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

0グッド

1クリップ

投稿2020/10/21 02:37

編集2020/10/22 05:30

前提・実現したいこと

現在,大量のjson形式のデータをpythonで読み取ろうとしているのですが,すごく時間がかかります.
調べてみると,jsonはデータ量に比例して読み込みスピードの時間が多くなると出てきました.
そこで,質問なのですが,このスピードを速くすることはデータをjson形式のままですることは可能なのでしょうか?
例えば,pythonの特定のライブラリを使うと速くなる or R言語やc++を用いると速くなるなどの情報を頂けると嬉しいです.
目標はこれら全てをdataframeにしたいです.

発生している問題・エラーメッセージ

boto3でローカルで読み取った時のコードです.

python

1path1 = f"s3://mybucket" 2import time 3import awswrangler as wr 4import boto3 5start = time.time() 6my_session = boto3.Session(aws_access_key_id='***', aws_secret_access_key='***', region_name='***') 7wr.s3.read_json(path1, boto3_session=my_session) 8elapsed_time = time.time() - start 9print(elapsed_time)

該当のソースコード

下のjsonファイルを読み込むのに30秒ほどかかりました.これと同程度のjsonファイルが約261000個ほどあります.

json

1{ 2 "format": "json", 3 "payload": { 4 "created_at": "20200101 18:45:20.000", 5 "AAA": "aaa", 6 "BBB": "bbb", 7 "ID": "1", 8 "purification": "CCC", 9 "status_bit": [ 10 { 11 "device": "D00800.00", 12 "name": "処理停止中", 13 "float": false 14 }, 15 (上のdeviceがこのあと,およそ500項目ある.teratailの字数制限に引っかかるので略.各deviceの文字の長さは全て同程度.) 16 ] 17 }, 18 "qos": 0, 19 "timestamp": 1602755120, 20 "topic": "sample" 21}

補足情報(FW/ツールのバージョンなど)

現在,jsonはawsのs3に貯まっており,boto3ライブラリやaws Glueを使用してみましたがうまくいきません(遅かった)でした.

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

toast-uz

2020/10/21 11:11

読み込みコード、json例、どのくらい時間がかっているのかを示してください。課題が再現する程度に簡略するとともに、s3を使わないでpythonのみでローカル実行しても再現するか確かめて、それを提示ください。こういうのは意外なところがボトルネックだったりしますので、空中戦でお話いただいても、有効な解決策を得ることは難しいと思います。そもそも、「大量のjson形式のデータ」との言い方が、「巨大」という意味なのか、「多数」という意味なのかも、判別できません。
ebal

2020/10/22 04:12

1. メモリに乗るのか 2. 処理は必要なのか(見るだけなのか) 3. 環境の制限 このあたりは記述してほしいです
mahc

2020/10/22 04:45

なるほどです. 編集します! わざわざ,ありがとうございます!
ebal

2020/10/22 05:33

回線速度も必要かもですね……ボトルネックが通信な気がします
mahc

2020/10/22 05:37

通信速度ですか,なるほどです.ありがとうございます.
toast-uz

2020/10/22 11:52

通信ボトルネックの可能性が高いと考えて「s3を使わないでpythonのみでローカル実行しても再現するか確かめて、それを提示ください。」と最初にお願いしております。対応よろしくお願いします。
mahc

2020/10/23 00:09

import pandas as pd import json import time path2= f"/Mylocal/***.json" df_s = pd.read_json(path2) start = time.time() elapsed_time = time.time() - start print(elapsed_time) 5.078315734863281e-05 と出たので,これは通信速度ですね....
guest

回答2

0

自己解決

s3の通信速度が遅いのがネックでした.
なので,なんとかs3を使わずにデータを保存します.

追記
aws s3 cp --region ap-northeast-1 s3://mybucket . --recursive

を使うと一瞬で終わりました.
ご協力感謝します!

投稿2020/10/23 00:26

編集2020/10/23 02:21
mahc

総合スコア33

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

0

投稿2020/10/21 02:54

daesaka

総合スコア136

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.35%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問