質問編集履歴

解答を受け、新たな疑問

2020/06/01 13:32

投稿

pumskin

スコア1

test CHANGED Viewed

File without changes

test CHANGED Viewed

@@ -12,37 +12,13 @@
 ### 知りたい事
-h4タグ内のhref属性のみ抽出し、リスト化したいがhrefのみのリストの作り方がわかりません。
+h4タグ内のhref属性のみ抽出し、絶対URLに変換したいが取得したいhref属性が取得されてしまいます。
+自分が取得したいのは各店舗のURLです。
+どのようにタグを指定すればよいのでしょうか。
-tagオブジェクト。getText()も試しましたがAttributeErrorが出ます。
-調べながら書いているので先のコードは全くできていませんが、この質問では、店舗名部分のh4タグからhrefを取り出してリスト化する方法をご教授願いたいです。
-最初から店舗のhrefを取り出す方法してリスト化する方法でも構いません。
-for　ではなく　url_list=("href")に繋げたいです。
-### 試したコード
-```
-for a in soup_findAll('h4'):
-   print(a.get('html'))
-```
-```
-url_list=soup.findAll('h4 a href')
-```
 ### 自分で書いたコード（途中）
@@ -50,42 +26,70 @@
 ```
-import time
-import csv
 import requests
-from bs4 import beautifulsoup
+from bs4 import BeautifulSoup
+from urllib.parse import urljoin
-url = requests.get('https://ramendb.supleks.jp/search?q=&state=&order=point&station-id=&tag%5B%5D=3&type=') ＃元URL
+shop_list_url = 'https://ramendb.supleks.jp/search?q=&state=&order=point&station-id=&tag%5B%5D=3&type='
-soup = BeautifulSoup(url.text,"html.parser")
-url_list = soup.select('h4 a')　＃取得URL、店舗名
-for link in url_list:
+ua = ""
-  print(link.get("href"))　＃取得URL出力
-jurl = requests.get(url_list)
+#大元URL
+base_url = 'https://ramendb.supleks.jp'
+#検索URL
+shop_url = base_url + "/search?page=1&order=point&station-id=0&tags=3"
+page = requests.get(shop_url,headers={"User-Agent" : ua})
-soup = BeautifulSoup(jurl.text,"html.parser")
+soup = BeautifulSoup(page.text,"html.parser")
+for a in soup.select("h4 a"):
-next_page = soup.find("a class="next" href")　＃次の２０件
+  shop_url_list = urljoin(shop_url,a.get("href"))
+print(shop_url_list)
 ```
+### 返し
+```
+ print(shop_url_list)
+https://ramendb.supleks.jp/rank/hot-shop
+```
+### 試したコード
+```
+for a in soup.select("#searched > h4 > a"):
+  shop_url_list = urljoin(shop_url,a.get("href"))
+```
 至らぬ点が多いと思いますが、宜しくお願い致します。