回答編集履歴

追記

2023/02/08 05:14

投稿

8524ba23

スコア38352

test CHANGED Viewed

@@ -63,4 +63,4 @@
 (3.0, [(4,), (5,), (6,)])
 """
 ```
+あるいは、そもそもジェネレータにせずとも、たんに`end`時に`clear`するだけでもよいかもしれません。

追記

2023/02/08 05:10

投稿

8524ba23

スコア38352

test CHANGED Viewed

@@ -1,2 +1,66 @@
 実際に試していませんので参考程度の回答ですが[Python running out of memory parsing XML using cElementTree.iterparse](https://stackoverflow.com/a/13261805)の回答にあるようにジェネレータにして`end`時に`clear`するとメモリ節約できるようです。
+## 追記
+大量データでは試していませんが、問題なく処理できているようです。
+なお、提示コードにおいて、XMLに開始時間よりも前の時間のデータが含まれている場合、最初の時間のデータにそれらが含まれるような動作になっているようです。
+ちょっと違和感ありますが、以下テストコードでもそのままの動作にしています。
+```Python
+from xml.etree.ElementTree import iterparse
+from io import StringIO
+# テストデータ
+s = """<dummy>
+    <timestep time="1">
+        <vehicle id="1"/>
+    </timestep>
+    <timestep time="2">
+        <vehicle id="2"/>
+        <vehicle id="3"/>
+    </timestep>
+    <timestep time="3">
+        <vehicle id="4"/>
+        <vehicle id="5"/>
+        <vehicle id="6"/>
+    </timestep>
+    <timestep time="4">
+        <vehicle id="9"/>
+    </timestep>
+</dummy>"""
+time_s=1 # これよりも大きい時間
+time_e=3 # 終了時間
+def get_element(xml):
+    data_list=[]
+    doc = iterparse(xml, events=('start', 'end'))
+    event, root = next(doc)
+    for event, elem in doc:
+        if event == 'start':
+            if elem.tag == 'timestep': #時間を抽出
+                # 時間tを読み込み
+                t = float(elem.attrib['time'])
+            elif elem.tag == 'vehicle' : # 車両の情報を抽出
+                id = int(str(elem.attrib['id']))
+                data_list.append((id,)) # 時間に関係なく蓄積しているけどまあいいか
+        elif event == 'end':
+            if elem.tag == 'timestep'and t > time_s:
+                yield t, data_list
+                data_list=[]
+                root.clear()
+        if t == time_e+1: # 完全一致だけどまあいいか
+            break
+# ファイル出力などの処理は呼出元でおこなう
+elems = get_element(StringIO(s))
+for e in elems:
+    print(e)
+"""
+(2.0, [(1,), (2,), (3,)])
+(3.0, [(4,), (5,), (6,)])
+"""
+```