前提
マップマッチングをしたいので、pythonで書かれたAPIを使って
地図(osm)をxmlで取得しようとしています。
API
https://leuvenmapmatching.readthedocs.io/en/latest/usage/openstreetmap.html
移動ログの緯度経度の最大最小で四角形を指定してその範囲の地図XMLをすべて取得しようとするとメモリエラーが起こるので、移動ログを(例えば)5分割して、小さい四角形を並べ形で取得しています。
実現したいこと
取得した複数のXMLファイルの重複部分を省いて統合したいです。
発生している問題・エラーメッセージ
#pythonで取得したXMLファイルを読もうとしたときに現れるエラーメッセージ File "file:/C:/Users/satomi/jupyter/osm_mapmatch/03_script/osm.xml", line 101656 XMLSyntaxError: XML declaration allowed only at the start of the document, line 101656, column 6 ================================ #取得したXMLファイル 1行目(ヘッダー) <?xml version="1.0" encoding="UTF-8"?> <osm version="0.6" generator="Overpass API 0.7.58.5 b0c4acbb"> <note>The data included in this document is from www.openstreetmap.org. The data is made available under ODbL.</note> <meta osm_base="2022-08-11T07:33:54Z"/> #道路情報 <node id="197005915" lat="35.6790113" lon="139.7407333" version="3" timestamp="2012-09-11T10:33:38Z" changeset="13067541" uid="32952" user="DennisL"/> #中略 </osm> ##エラーが出ている10156行目 ヘッダー重複 <?xml version="1.0" encoding="UTF-8"?> <osm version="0.6" generator="Overpass API 0.7.58.5 b0c4acbb"> <note>The data included in this document is from www.openstreetmap.org. The data is made available under ODbL.</note> <meta osm_base="2022-08-11T23:55:21Z"/> <bounds minlat="35.6774040" minlon="139.7402838" maxlat="35.6874040" maxlon="139.7502838"/> #一部道路情報が重複 <node id="197005915" lat="35.6790113" lon="139.7407333" version="3" timestamp="2012-09-11T10:33:38Z" changeset="13067541" uid="32952" user="DennisL"/> ↑ 小さい四角形で取得した複数のXMLを統合して読み込みたいのですが、 その際にXMLのヘッダー部分と一部の道路情報が重複してしまってpythonエレメントツリーなどでは読み込めません。 (手動で重複部分を省けば読み込めるのですが…)大量データなので自動化したく思います。
該当のソースコード
python
1from pathlib import Path 2import requests 3from leuvenmapmatching.map.inmem import InMemMap 4import osmread 5 6###地図DBからxml取得 7###このコードの緯度経度をずらして、複数取得し、abでxmlファイルに追記する 8xml_file = Path(".") / "osm.xml" 9url = 'http://overpass-api.de/api/map?bbox=139.7502838015590,35.68740395371892,139.7602838015590,35.69740395371892' 10r = requests.get(url, stream=True) 11with xml_file.open('ab') as ofile: 12 for chunk in r.iter_content(chunk_size=1024): 13 if chunk: 14 ofile.write(chunk) 15 16###xmlから地図データを読み込み 17###追記されたxml全体を読み込み、四角形がつながった形の地図データを得る 18map_con = InMemMap("myosm", use_latlon=True, use_rtree=True, index_edges=True) 19for entity in osmread.parse_file(str(xml_file)): 20 if isinstance(entity, osmread.Way) and 'highway' in entity.tags: 21 for node_a, node_b in zip(entity.nodes, entity.nodes[1:]): 22 map_con.add_edge(node_a, node_b) 23 # Some roads are one-way. We'll add both directions. 24 map_con.add_edge(node_b, node_a) 25 if isinstance(entity, osmread.Node): 26 map_con.add_node(entity.id, (entity.lat, entity.lon)) 27map_con.purge()
試したこと
一つ目の四角形で取得したxmlファイルに二つ目を追記(ab)する…とやっていきましたが、
XMLのヘッダー部分と、ごく一部の道路情報が重複してしまい、エレメントツリーで読めないXMLファイルになってしまいました。
補足情報(FW/ツールのバージョンなど)
ここにより詳細な情報を記載してください。
ありがとうございます。
はい、たしかに…個別ファイルとしては読み込めるのですが…
どのようにすれば、重複を取り除けるでしょうか…
