質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
87.20%
XML

XMLは仕様の1つで、マークアップ言語群を構築するために使われています。

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

受付中

pythonで複数のXMLファイルの重複を排除して追記/統合したい

Satomi07
Satomi07

総合スコア24

XML

XMLは仕様の1つで、マークアップ言語群を構築するために使われています。

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

1回答

0リアクション

0クリップ

224閲覧

投稿2022/08/11 23:55

編集2022/08/12 00:19

前提

マップマッチングをしたいので、pythonで書かれたAPIを使って
地図(osm)をxmlで取得しようとしています。

API
https://leuvenmapmatching.readthedocs.io/en/latest/usage/openstreetmap.html

移動ログの緯度経度の最大最小で四角形を指定してその範囲の地図XMLをすべて取得しようとするとメモリエラーが起こるので、移動ログを(例えば)5分割して、小さい四角形を並べ形で取得しています。

実現したいこと

取得した複数のXMLファイルの重複部分を省いて統合したいです。

発生している問題・エラーメッセージ

#pythonで取得したXMLファイルを読もうとしたときに現れるエラーメッセージ File "file:/C:/Users/satomi/jupyter/osm_mapmatch/03_script/osm.xml", line 101656 XMLSyntaxError: XML declaration allowed only at the start of the document, line 101656, column 6 ================================ #取得したXMLファイル 1行目(ヘッダー) <?xml version="1.0" encoding="UTF-8"?> <osm version="0.6" generator="Overpass API 0.7.58.5 b0c4acbb"> <note>The data included in this document is from www.openstreetmap.org. The data is made available under ODbL.</note> <meta osm_base="2022-08-11T07:33:54Z"/> #道路情報 <node id="197005915" lat="35.6790113" lon="139.7407333" version="3" timestamp="2012-09-11T10:33:38Z" changeset="13067541" uid="32952" user="DennisL"/> #中略 </osm> ##エラーが出ている10156行目 ヘッダー重複 <?xml version="1.0" encoding="UTF-8"?> <osm version="0.6" generator="Overpass API 0.7.58.5 b0c4acbb"> <note>The data included in this document is from www.openstreetmap.org. The data is made available under ODbL.</note> <meta osm_base="2022-08-11T23:55:21Z"/> <bounds minlat="35.6774040" minlon="139.7402838" maxlat="35.6874040" maxlon="139.7502838"/> #一部道路情報が重複 <node id="197005915" lat="35.6790113" lon="139.7407333" version="3" timestamp="2012-09-11T10:33:38Z" changeset="13067541" uid="32952" user="DennisL"/> ↑ 小さい四角形で取得した複数のXMLを統合して読み込みたいのですが、 その際にXMLのヘッダー部分と一部の道路情報が重複してしまってpythonエレメントツリーなどでは読み込めません。 (手動で重複部分を省けば読み込めるのですが…)大量データなので自動化したく思います。

該当のソースコード

python

from pathlib import Path import requests from leuvenmapmatching.map.inmem import InMemMap import osmread ###地図DBからxml取得 ###このコードの緯度経度をずらして、複数取得し、abでxmlファイルに追記する xml_file = Path(".") / "osm.xml" url = 'http://overpass-api.de/api/map?bbox=139.7502838015590,35.68740395371892,139.7602838015590,35.69740395371892' r = requests.get(url, stream=True) with xml_file.open('ab') as ofile: for chunk in r.iter_content(chunk_size=1024): if chunk: ofile.write(chunk) ###xmlから地図データを読み込み ###追記されたxml全体を読み込み、四角形がつながった形の地図データを得る map_con = InMemMap("myosm", use_latlon=True, use_rtree=True, index_edges=True) for entity in osmread.parse_file(str(xml_file)): if isinstance(entity, osmread.Way) and 'highway' in entity.tags: for node_a, node_b in zip(entity.nodes, entity.nodes[1:]): map_con.add_edge(node_a, node_b) # Some roads are one-way. We'll add both directions. map_con.add_edge(node_b, node_a) if isinstance(entity, osmread.Node): map_con.add_node(entity.id, (entity.lat, entity.lon)) map_con.purge()

試したこと

一つ目の四角形で取得したxmlファイルに二つ目を追記(ab)する…とやっていきましたが、
XMLのヘッダー部分と、ごく一部の道路情報が重複してしまい、エレメントツリーで読めないXMLファイルになってしまいました。

補足情報(FW/ツールのバージョンなど)

ここにより詳細な情報を記載してください。

以下のような質問にはリアクションをつけましょう

  • 質問内容が明確
  • 自分も答えを知りたい
  • 質問者以外のユーザにも役立つ

リアクションが多い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

気になる質問をクリップする

クリップした質問は、後からいつでもマイページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

下記のような質問は推奨されていません。

  • 間違っている
  • 質問になっていない投稿
  • スパムや攻撃的な表現を用いた投稿

適切な質問に修正を依頼しましょう。

Satomi07

2022/08/12 00:59

ありがとうございます。 はい、たしかに…個別ファイルとしては読み込めるのですが… どのようにすれば、重複を取り除けるでしょうか…

まだ回答がついていません

会員登録して回答してみよう

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
87.20%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問

同じタグがついた質問を見る

XML

XMLは仕様の1つで、マークアップ言語群を構築するために使われています。

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。