質問編集履歴

質問に関係ない部分を修正しました

2017/07/28 08:27

投稿

jackojacko_

スコア17

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -1,10 +1,10 @@
 ###前提・実現したいこと
-カーセンサーの中古車検索API(https://webservice.recruit.co.jp/carsensor/reference.html)を用いてスクレイピングをしようとしています。
+カーセンサーnetの中古車検索API(https://webservice.recruit.co.jp/carsensor/reference.html)を用いてスクレイピングをしようとしています。
 BeautifulSoupを使っているのですが、<body>内の<name>を出力したいのに、以下のコードではbodyより手前にある<brand>内の<name>が出力されてしまいます。
 どうすればbody内のnameを取得できるでしょうか？
 ###発生している問題・エラーメッセージ
-カーセンサーのAPIを使うと、たとえば車種「プリウス」で検索すると以下のようなXMLが出力されます。
+カーセンサーnetのAPIを使うと、たとえば車種「プリウス」で検索すると以下のようなXMLが出力されます。
 以下の「ミニバン」を取得したいのに、「トヨタ」が取得されてしまいます。
 ```XML
 <results xmlns="http://webservice.recruit.co.jp/carsensor/">
@@ -33,60 +33,33 @@
 <code>M</code>
 <name>ミニバン</name>
 </body>
-<odd>1km</odd>
-<year>2017</year>
-<shop>
-<name>カーズカフェ カーベル姫路東</name>
-<pref>
-<code>28</code>
-<name>兵庫県</name>
-</pref>
-<lat>34.796492</lat>
-<lng>134.721361</lng>
-<datum>world</datum>
-</shop>
-<color>各色選べます（オプション色は32,400円高）</color>
-<maintenance_comment>
-９型フルセグ地デジ対応高詳細ナビ（ＤＶＤビデオ再生可）ＣＤ録音機能＆Ｂｌｕｅｔｏｏｔｈ接続＆ＵＳＢ接続＆ニンテンドーＤＳ接続＆バックカメラ＆アンテナ分離型ＥＴＣ＆フロアマットを取り付け済でお渡しです！新車をご注文後メーカーよりお取り寄せいたしますので、現行最新モデルでのご準備となります。ボディーカラーお選びいただけます（オプション色は32,400円高）メーカーオプション等の追加もできます！
-</maintenance_comment>
-<maintenance_fee/>
-<photo>
 (以下略)
 </usedcar>
 </results>
 ```
 ###該当のソースコード
-```ここに言語を入力
+```Python
 import lxml.html
 import selenium
 from selenium import webdriver
 from bs4 import BeautifulSoup
-import pandas as pd
-carcode=[]
 bodytype=[]
-url='http://webservice.recruit.co.jp/carsensor/usedcar/v1/?key=4c3c5fca5e53632a&model='
+url='http://webservice.recruit.co.jp/carsensor/usedcar/v1/?key=(APIキー)&model='
 driver = webdriver.Chrome('C:\selenium\chromedriver')
-for i in range(1,10):
-    driver.get(url + "プリウス")
+driver.get(url + "プリウス")
-    data = driver.page_source.encode('utf-8')
+data = driver.page_source.encode('utf-8')
-    soup = BeautifulSoup(data, "lxml")
+soup = BeautifulSoup(data, "lxml")
-    if soup.find("body").find("name"):
+if soup.find("body").find("name"):
-        carcode.append(i)
-        body = soup.find("body")
+   body = soup.find("body")
-        bodytype.append(body.find("name").string)
+   bodytype.append(body.find("name").string)
-    else:
+else:
-        carcode.append(i)
-        bodytype.append("NA")
+   bodytype.append("NA")
-df = pd.DataFrame({"carcode":carcode,"bodytype":bodytype})
-df.to_csv("result.csv", index=False, encoding='utf-8')
 driver.quit()
 ```

2017/07/28 08:27

投稿

jackojacko_

スコア17

title CHANGED Viewed

	@@ -1,1 +1,1 @@
1	- BeautifulSoupでの~~スクレイピング~~がうま~~くできない~~
1	+ BeautifulSoupで親要素の指定を無視して子要素が取得されてしまう

body CHANGED Viewed

File without changes

コード中の不要な部分を消しました

2017/07/27 04:38

投稿

jackojacko_

スコア17

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -16,7 +16,7 @@
 <id>CU4326907244</id>
 <brand>
 <code>TO</code>
-**<name>トヨタ</name>**
+<name>トヨタ</name>
 </brand>
 <model>プリウスα</model>
 <grade>1.8 S ツーリングセレクション</grade>
@@ -31,7 +31,7 @@
 </desc>
 <body>
 <code>M</code>
-**<name>ミニバン</name>**
+<name>ミニバン</name>
 </body>
 <odd>1km</odd>
 <year>2017</year>
@@ -64,30 +64,24 @@
 from bs4 import BeautifulSoup
 import pandas as pd
-dat=pd.read_csv('carcode.csv',encoding="UTF-8")
 carcode=[]
 bodytype=[]
 url='http://webservice.recruit.co.jp/carsensor/usedcar/v1/?key=4c3c5fca5e53632a&model='
-params=dict(
-        key="4c3c5fca5e53632a",
-        model="プリウス"
-        #model=dat.iloc[1,1]
-        )
 driver = webdriver.Chrome('C:\selenium\chromedriver')
 for i in range(1,10):
-    driver.get(url + dat.iloc[i,1])
+    driver.get(url + "プリウス")
     data = driver.page_source.encode('utf-8')
     soup = BeautifulSoup(data, "lxml")
     if soup.find("body").find("name"):
-        carcode.append(dat.iloc[i,0])
+        carcode.append(i)
         body = soup.find("body")
         bodytype.append(body.find("name").string)
     else:
-        carcode.append(dat.iloc[i,0])
+        carcode.append(i)
         bodytype.append("NA")
 df = pd.DataFrame({"carcode":carcode,"bodytype":bodytype})