回答編集履歴

回答修正

2017/07/28 08:42

投稿

スコア0

answer CHANGED Viewed

@@ -1,5 +1,33 @@
 以下のような最低限の`xml`データで再現しました。
 `soup.find("body")`すると`<body>xmlデータ全体</body>`が返ります。
+#### 回答修正
+パーサ`lxml`と指定すると、`HTML`パーサとして動作し、誤解釈してしまっているようです。
+`lxml-xml`と`XML`パーサとして指定することで、正常に動作することが確認できました。
+各パーサについては[Installing a parser](https://www.crummy.com/software/BeautifulSoup/bs4/doc/#installing-a-parser)に記載されています。
+```Python
+xml = """
+<?xml version="1.0" encoding="UTF-8"?>
+<results>
+  <usedcar>
+    <brand>
+      <code>TO</code><name>トヨタ</name>
+    </brand>
+    <body>
+      <code>M</code><name>ミニバン</name>
+    </body>
+  </usedcar>
+</results>
+"""
+from bs4 import BeautifulSoup
+soup = BeautifulSoup(xml,'lxml-xml')
+print(soup.find("body"))              # 正常 <body><code>M</code><name>ミニバン</name></body>
+print(soup.find("body").find("name")) # 正常 <name>ミニバン</name>
+```
+#### 以前の回答
 ちょっと`xml`パーサの動作が不可解です。
 とりあえず`xml`データ（＝文字列）中の`<body>`を`<body2>`に`replace`すると正しく取得できました。