質問編集履歴

1

追記を書き加えた

2020/10/22 05:30

投稿

mahc
mahc

スコア33

test CHANGED
@@ -1 +1 @@
1
- 大量のjson形式の読み込みスピード比較
1
+ 大量の数のjson形式の読み込みスピード比較
test CHANGED
@@ -10,7 +10,95 @@
10
10
 
11
11
  例えば,pythonの特定のライブラリを使うと速くなる or R言語やc++を用いると速くなるなどの情報を頂けると嬉しいです.
12
12
 
13
+ 目標はこれら全てをdataframeにしたいです.
13
14
 
15
+
16
+
17
+
18
+
19
+ ### 発生している問題・エラーメッセージ
20
+
21
+ boto3でローカルで読み取った時のコードです.
22
+
23
+
24
+
25
+
26
+
27
+ ```python
28
+
29
+ path1 = f"s3://mybucket"
30
+
31
+ import time
32
+
33
+ import awswrangler as wr
34
+
35
+ import boto3
36
+
37
+ start = time.time()
38
+
39
+ my_session = boto3.Session(aws_access_key_id='***', aws_secret_access_key='***', region_name='***')
40
+
41
+ wr.s3.read_json(path1, boto3_session=my_session)
42
+
43
+ elapsed_time = time.time() - start
44
+
45
+ print(elapsed_time)
46
+
47
+ ```
48
+
49
+
50
+
51
+ ### 該当のソースコード
52
+
53
+ 下のjsonファイルを読み込むのに30秒ほどかかりました.これと同程度のjsonファイルが約261000個ほどあります.
54
+
55
+
56
+
57
+ ```json
58
+
59
+ {
60
+
61
+ "format": "json",
62
+
63
+ "payload": {
64
+
65
+ "created_at": "20200101 18:45:20.000",
66
+
67
+ "AAA": "aaa",
68
+
69
+ "BBB": "bbb",
70
+
71
+ "ID": "1",
72
+
73
+ "purification": "CCC",
74
+
75
+ "status_bit": [
76
+
77
+ {
78
+
79
+ "device": "D00800.00",
80
+
81
+ "name": "処理停止中",
82
+
83
+ "float": false
84
+
85
+ },
86
+
87
+ (上のdeviceがこのあと,およそ500項目ある.teratailの字数制限に引っかかるので略.各deviceの文字の長さは全て同程度.)
88
+
89
+ ]
90
+
91
+ },
92
+
93
+ "qos": 0,
94
+
95
+ "timestamp": 1602755120,
96
+
97
+ "topic": "sample"
98
+
99
+ }
100
+
101
+ ```
14
102
 
15
103
 
16
104
 
@@ -21,3 +109,11 @@
21
109
 
22
110
 
23
111
  現在,jsonはawsのs3に貯まっており,boto3ライブラリやaws Glueを使用してみましたがうまくいきません(遅かった)でした.
112
+
113
+
114
+
115
+
116
+
117
+ #
118
+
119
+