質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
XML

XMLは仕様の1つで、マークアップ言語群を構築するために使われています。

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

Q&A

1回答

1111閲覧

pythonで複数のXMLファイルの重複を排除して追記/統合したい

Satomi07

総合スコア24

XML

XMLは仕様の1つで、マークアップ言語群を構築するために使われています。

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

0グッド

0クリップ

投稿2022/08/11 23:55

編集2022/08/12 00:19

前提

マップマッチングをしたいので、pythonで書かれたAPIを使って
地図(osm)をxmlで取得しようとしています。

API
https://leuvenmapmatching.readthedocs.io/en/latest/usage/openstreetmap.html

移動ログの緯度経度の最大最小で四角形を指定してその範囲の地図XMLをすべて取得しようとするとメモリエラーが起こるので、移動ログを(例えば)5分割して、小さい四角形を並べ形で取得しています。

実現したいこと

取得した複数のXMLファイルの重複部分を省いて統合したいです。

発生している問題・エラーメッセージ

#pythonで取得したXMLファイルを読もうとしたときに現れるエラーメッセージ File "file:/C:/Users/satomi/jupyter/osm_mapmatch/03_script/osm.xml", line 101656 XMLSyntaxError: XML declaration allowed only at the start of the document, line 101656, column 6 ================================ #取得したXMLファイル 1行目(ヘッダー) <?xml version="1.0" encoding="UTF-8"?> <osm version="0.6" generator="Overpass API 0.7.58.5 b0c4acbb"> <note>The data included in this document is from www.openstreetmap.org. The data is made available under ODbL.</note> <meta osm_base="2022-08-11T07:33:54Z"/> #道路情報 <node id="197005915" lat="35.6790113" lon="139.7407333" version="3" timestamp="2012-09-11T10:33:38Z" changeset="13067541" uid="32952" user="DennisL"/> #中略 </osm> ##エラーが出ている10156行目 ヘッダー重複 <?xml version="1.0" encoding="UTF-8"?> <osm version="0.6" generator="Overpass API 0.7.58.5 b0c4acbb"> <note>The data included in this document is from www.openstreetmap.org. The data is made available under ODbL.</note> <meta osm_base="2022-08-11T23:55:21Z"/> <bounds minlat="35.6774040" minlon="139.7402838" maxlat="35.6874040" maxlon="139.7502838"/> #一部道路情報が重複 <node id="197005915" lat="35.6790113" lon="139.7407333" version="3" timestamp="2012-09-11T10:33:38Z" changeset="13067541" uid="32952" user="DennisL"/> ↑ 小さい四角形で取得した複数のXMLを統合して読み込みたいのですが、 その際にXMLのヘッダー部分と一部の道路情報が重複してしまってpythonエレメントツリーなどでは読み込めません。 (手動で重複部分を省けば読み込めるのですが…)大量データなので自動化したく思います。

該当のソースコード

python

1from pathlib import Path 2import requests 3from leuvenmapmatching.map.inmem import InMemMap 4import osmread 5 6###地図DBからxml取得 7###このコードの緯度経度をずらして、複数取得し、abでxmlファイルに追記する 8xml_file = Path(".") / "osm.xml" 9url = 'http://overpass-api.de/api/map?bbox=139.7502838015590,35.68740395371892,139.7602838015590,35.69740395371892' 10r = requests.get(url, stream=True) 11with xml_file.open('ab') as ofile: 12 for chunk in r.iter_content(chunk_size=1024): 13 if chunk: 14 ofile.write(chunk) 15 16###xmlから地図データを読み込み 17###追記されたxml全体を読み込み、四角形がつながった形の地図データを得る 18map_con = InMemMap("myosm", use_latlon=True, use_rtree=True, index_edges=True) 19for entity in osmread.parse_file(str(xml_file)): 20 if isinstance(entity, osmread.Way) and 'highway' in entity.tags: 21 for node_a, node_b in zip(entity.nodes, entity.nodes[1:]): 22 map_con.add_edge(node_a, node_b) 23 # Some roads are one-way. We'll add both directions. 24 map_con.add_edge(node_b, node_a) 25 if isinstance(entity, osmread.Node): 26 map_con.add_node(entity.id, (entity.lat, entity.lon)) 27map_con.purge()

試したこと

一つ目の四角形で取得したxmlファイルに二つ目を追記(ab)する…とやっていきましたが、
XMLのヘッダー部分と、ごく一部の道路情報が重複してしまい、エレメントツリーで読めないXMLファイルになってしまいました。

補足情報(FW/ツールのバージョンなど)

ここにより詳細な情報を記載してください。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

Satomi07

2022/08/12 00:59

ありがとうございます。 はい、たしかに…個別ファイルとしては読み込めるのですが… どのようにすれば、重複を取り除けるでしょうか…
guest

回答1

0

取得した複数のXMLデータは各個別ファイルとして保存します。
そうすればレメントツリーで読み込めるはずです。
あとはそれらから必要な道路情報である要素を抽出して重複を取り除けばよいでしょう。

投稿2022/08/12 00:52

can110

総合スコア38266

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

Satomi07

2022/08/12 01:00

ありがとうございます。 はい、たしかに…個別ファイルとしては読み込めるのですが… どのようにすれば、重複を取り除けるでしょうか…
can110

2022/08/12 01:23

各ファイルから読み込んだ地図情報の要素?を、id値?なりをキーにした辞書に登録すればよいかと思います。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

まだベストアンサーが選ばれていません

会員登録して回答してみよう

アカウントをお持ちの方は

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問