BeautifulSoupで親要素の指定を無視して子要素が取得されてしまう

Question

###前提・実現したいことカーセンサーnetの中古車検索API(https://webservice.recruit.co.jp/carsensor/reference.html)を用いてスクレイピングをしようとしています。 BeautifulSoupを使っているのですが、内のを出力したいのに、以下のコードではbodyより手前にある内のが出力されてしまいます。どうすればbody内のnameを取得できるでしょうか？ ###発生している問題・エラーメッセージカーセンサーnetのAPIを使うと、たとえば車種「プリウス」で検索すると以下のようなXMLが出力されます。以下の「ミニバン」を取得したいのに、「トヨタ」が取得されてしまいます。 ```XML 1.01 11262 10 1 CU4326907244 TO トヨタプリウスα 1.8 S ツーリングセレクション 3107000 新車未登録法定整備付保証付リ未ハイブリッド新車車検3年！各色選べます（オプション色は32,400円高）！グレード変更OK！９型ナビフルセグ地デジ＆ＣＤ録音機能＆Bluetooth接続＆ＤＶＤ再生＆バックカメラ＆ＥＴＣ＆マット付！ M ミニバン (以下略) ``` ###該当のソースコード ```Python import lxml.html import selenium from selenium import webdriver from bs4 import BeautifulSoup bodytype=[] url='http://webservice.recruit.co.jp/carsensor/usedcar/v1/?key=(APIキー)&model=' driver = webdriver.Chrome('C:\selenium\chromedriver') driver.get(url + "プリウス") data = driver.page_source.encode('utf-8') soup = BeautifulSoup(data, "lxml") if soup.find("body").find("name"): body = soup.find("body") bodytype.append(body.find("name").string) else: bodytype.append("NA") driver.quit() ```

Accepted Answer

以下のような最低限の`xml`データで再現しました。 `soup.find("body")`すると`xmlデータ全体`が返ります。 #### 回答修正パーサ`lxml`と指定すると、`HTML`パーサとして動作し、誤解釈してしまっているようです。 `lxml-xml`と`XML`パーサとして指定することで、正常に動作することが確認できました。各パーサについては[Installing a parser](https://www.crummy.com/software/BeautifulSoup/bs4/doc/#installing-a-parser)に記載されています。 ```Python xml = """ TOトヨタ Mミニバン """ from bs4 import BeautifulSoup soup = BeautifulSoup(xml,'lxml-xml') print(soup.find("body")) # 正常 Mミニバン print(soup.find("body").find("name")) # 正常ミニバン ``` #### 以前の回答ちょっと`xml`パーサの動作が不可解です。とりあえず`xml`データ（＝文字列）中の``を``に`replace`すると正しく取得できました。 **バッドノウハウ**ですが。 ```Python xml = """ TOトヨタ Mミニバン """ soup = BeautifulSoup(xml,'lxml') print(soup.find("body")) # ～ !? print(soup.find("body").find("name")) # トヨタ !? results = soup.find("results") usedcar = results.find('usedcar') print(usedcar.find('body')) # None !? print(usedcar.find("brand")) # TOトヨタ # バッドノウハウ : -> に置換 xml = xml.replace( '', '') xml = xml.replace( '', '') soup = BeautifulSoup(xml,'lxml') print(soup.find("body2").find("name")) # ミニバン ```

Answer

##追記ご回答を受けて、の子タグのの子タグのと指定したところ、そちらでもうまくいきました！（パーサーを他に替えてもどうしてもHTMLと認識してしまうこともあるので……） ```Python import lxml.html import selenium from selenium import webdriver from bs4 import BeautifulSoup bodytype=[] url='http://webservice.recruit.co.jp/carsensor/usedcar/v1/?key=(APIキー)&model=' driver = webdriver.Chrome('C:\selenium\chromedriver') driver.get(url + "プリウス") data = driver.page_source.encode('utf-8') soup = BeautifulSoup(data, "lxml") if soup.find("name"): bodytype.append(soup.find("body").find("body").find("name").string) else: bodytype.append(None) driver.quit() ``` ##自己解決根本的な原因はわからないままなのですが、「の子要素の」という風に親要素との関連で定義するのを諦めて、「2つ目のタグ」という条件で指定するようにしたところ、一応本来の目的は達成できました。 ```Python import lxml.html import selenium from selenium import webdriver from bs4 import BeautifulSoup bodytype=[] url='http://webservice.recruit.co.jp/carsensor/usedcar/v1/?key=(APIキー)&model=' driver = webdriver.Chrome('C:\selenium\chromedriver') driver.get(url + "プリウス") data = driver.page_source.encode('utf-8') soup = BeautifulSoup(data, "lxml") if soup.find("name"): bodytype.append(soup.find("name")[1].string) else: bodytype.append("NA") driver.quit() ```