lxmlのElementのattributeをunicodeとしてtostringしたい

Question

lxmlを使ってattributeに日本語が含まれるXMLの処理をしています。ツリー全体に対してtostringをすると上手くいきますが、単一のElementを対象に処理するとattributeの日本語をうまく変換することができません。以下のような状況です。 ```python >>> from lxml import etree >>> root = etree.fromstring('フガ') >>> etree.tostring(root, encoding="utf-8").decode() 'フガ' # うまいく >>> etree.tostring(root.xpath("//fuga")[0], encoding="utf-8").decode() 'フガ' # これだと駄目 ``` このような場合、どのように取り扱うのが適当でしょうか？よろしくおねがいします。 ### 追記色々試してみたところ、Element.attrib["f"]でアクセスすると日本語（ユニコード文字）になるようでした。また、「取り出されたもののルート」だけ数値文字参照に化けることが判明しました。 ```python >>> from lxml import etree >>> tree = etree.fromstring('') >>> etree.tostring(tree, encoding="utf-8").decode() '' >>> etree.tostring(tree[0], encoding="utf-8").decode() '' >>> tree[0].attrib["h"] 'ほげ' ``` これはlxmlのバグかもしれませんが、今のところ既知の報告や関連情報を見つけられていないので、もう少し調べて出てこなければバグレポートでも投げてみます。

Answer

I found if a node is not the root of its tree and you want to dump it as a root, then its attributes will not be parsed correctly. So the solution is:

python3
1etree.tostring(tree[0].__copy__(), encoding="utf-8").decode()
2>>> '<hoge h="ほげ"><fuga f="ふが"><piyo p="ぴよ"/></fuga></hoge>'

Answer

[Issue tracker](https://bugs.launchpad.net/lxml?field.searchtext=tostring&search=Search&field.status%3Alist=NEW&field.status%3Alist=INCOMPLETE_WITH_RESPONSE&field.status%3Alist=INCOMPLETE_WITHOUT_RESPONSE&field.status%3Alist=CONFIRMED&field.status%3Alist=TRIAGED&field.status%3Alist=INPROGRESS&field.status%3Alist=FIXCOMMITTED&field.assignee=&field.bug_reporter=&field.omit_dupes=on&field.has_patch=&field.has_no_package=)には上がってなさそうですが、怪しい挙動ですね。でもソース（[ココ](https://github.com/lxml/lxml/blob/lxml-4.2.1/src/lxml/serializer.pxi#L31)とか[ココ](https://github.com/lxml/lxml/blob/lxml-4.2.1/src/lxml/includes/tree.pxd)）を追っかけてると問題の根っこはlxmlを突き抜けてlibxmlに到達するんじゃないかなぁとちょっと思ったり。興味本位の野次馬ですが、ご参考までに。

追記

関連した質問