元の書式を保ったまま、XMLファイルの必要箇所のみ書き換えたい。

###前提・実現したいこと
XMLファイルを一部書き換える。
下の例では、"title C"を"title A"に書き換える処理のみ行いたい。
ただし、元の書式は崩さない。
※「元の書式」とは、以下の内容です。

XML宣言
コメント行
attributeの順番

###発生している問題・エラーメッセージ

XML宣言が消え、行が詰められる
コメント行が空行に置きかえられる
attributeの順番が変わる

###インプットファイル(sample.xml)

XML
1<?xml version="1.0"?>
2<feed id="A" country="B">
3<!--COMMENT-->
4    <title>title C</title>
5    <categories>
6        <category term="Asia" />
7        <category term="South America" />
8        <category term="Europe" />
9    </categories>
10</feed>

###ソースコード(tmp.py)

Python
1# -*- coding: utf-8 -*-
2from xml.etree import ElementTree # XML parser のimport
3tree = ElementTree.parse("sample.xml")
4root = tree.getroot()
5# インプットファイルの"title C"を"title A"に書き換える
6root.find('title').text = "title A"
7tree.write("output.xml")

###アウトプットファイル(output.xml)

XML
1<feed country="B" id="A">
2
3    <title>title A</title>
4    <categories>
5        <category term="Asia" />
6        <category term="South America" />
7        <category term="Europe" />
8    </categories>
9</feed>

###試したこと
XML parserを使用せず、行単位で読み込み・書き込みの処理を試みました。
しかし、インプットファイルのXMLの書式が統一していないと、そういったファイルは処理ができなくなることが判明しました。
XMLファイルとして内容は同じだと思いますが、元の書式を保ったまま、必要箇所だけ書き換えたいです。
正規表現を使用して編集する必要があるのか、と現時点では考えています...。

###補足情報(言語/FW/ツール等のバージョンなど)
使用言語：Python
ファイル形式：XML

行動規範の内容に同意します

回答1件

ベストアンサー

lxmlなら、もう少しましになります。

XML宣言 ⇒ 不完全だが出力できる（元のを維持するのはダメっぽい）
コメント行 ⇒ OK
attributeの順番 ⇒ たぶんOK
その他↓
空白 ⇒ 空白部分や改行も維持される
タグ内のスペース ⇒ 維持されない

これでダメなら、ファイルを1行ずつ読み込んで（文字エンコーディングに注意）、
<title>が見つかったら（if "<title>" in line:）、その行を正規表現などを使って書き換える、
みたいにしたほうが早いかもですね。
もちろん、予期しないフォーマット（行をまたいでいるとか）には対応できませんので注意です。

コード例

lang
1# -*- coding: utf-8 -*-
2from lxml import etree
3
4tree = etree.parse("sample.xml")
5tree.find("title").text = "title A"
6with open('output.xml', 'wb') as f:
7    f.write(etree.tostring(tree, xml_declaration=True, encoding='utf-8'))

実行結果（Python3.5.2+Anaconda4.1.1で実行）

lang
1<?xml version='1.0' encoding='utf-8'?>
2<feed id="A" country="B">
3<!--COMMENT-->
4    <title>title A</title>
5    <categories>
6        <category term="Asia"/>
7        <category term="South America"/>
8        <category term="Europe"/>
9    </categories>
10</feed>

参考リンク：

The lxml.etree Tutorial
http://lxml.de/tutorial.html

投稿2016/08/07 12:16

argius

総合スコア9390

UMA00

2016/08/07 13:03

回答頂き、ありがとうございます! まず、lxmlについて上記の特長があることは知りませんでした。ただ、今回は別途インストールが必要なツールは使用しない方向で考えています。せっかく教えて頂いたのに、申し訳ありません...。 ※ちなみに、Python2.7.5です。もうひとつの方、「正規表現」の方法ですが、今考えているのは 1. '<feed.*?/feed>'というパターンのカタマリを探す 2. その中で、'<title.*?/title>'というパターンのカタマリを探す 3. '<>'でsplitして、リスト化した2番目の要素（これが"title C"）を書き換えるといった方法です。かなり強引な気がしますが...。

argius

2016/08/07 13:16

それは残念です。出現するパターンが複雑でなければ、 with open("sample.xml") as f: xmlstr = f.read() xmlstr2 = xmlstr.replace("<title>title C</title>", "<title>title A</title>") でも良さそうですが。実際の条件がもっと複雑だとしたら、やはり正規表現でしょうね。

UMA00

2016/08/07 13:31

>実際の条件がもっと複雑だとしたら、やはり正規表現でしょうね。そうですね。今は、シンプルな形のXMLファイルを対象にしていますが、将来的に扱おうとしているのはもっと大きいものです。そのため、木構造が複雑になっていて、例えば titleは必ず、feedの子ノードであるといった制限もついてきます（そういったこともはじめにコメントしておくべきでした）。要するに、XML parserのようにノードを順々に辿っていくけれども、出力の際には元の書式を崩さない、といった贅沢な（？）ことを希望しています...。

argius

2016/08/07 13:47

Pythonのバージョンが古いのと拡張モジュールが使えないので、できることが限られるのが残念ですね。 feedのかたまりをぶつ切りにしてあとでつなげるとか、日本語が含まれないデータならリスト操作で範囲置き換えとか、色々ありそうですが、決定的な方法はなさそうです。

UMA00

2016/08/07 23:26

これならいけそう!と昨日思いついたものがありますので、書いておきますね。 ※簡単な構造のインプットファイルに対しては、書式を崩さず必要箇所のみ書き換えられることを確認済みです以下の処理手順になります。 0. あらかじめ、ファイルの内容を1行ごとに読み込み、リストに格納しておく。 1. XML parser "ElementTree"（質問時のものと同様）を使用して、書き換え箇所を探す 2. その書き換え箇所の行番号を取得する（取得方法は、別の質問をしたときに教えて頂いたクラスを使用） 3. その行番号の行を参照する（あらかじめ用意しておいたリストから取り出す） 4. その行の必要箇所を書き換えたものを、リストの元の場所（"行番号"番目のリスト）に入れる（元の、書き換える前のものがこれに入れ替えられる） 5. 全ての処理が終了した後、リストの要素を1行ごとにファイルに出力するこういう、強引な方法（？）で、いろいろなインプットファイルに対して確認しているところです。

行動規範の内容に同意します