Beautiful4を使用してスクレイピングをしています。
「u_linkList」内で入れ子になっているURLを全て取得したいです。
classで指定した後、その子要素のURLを全て取得したいという意味になります。
ご教授お願い致します。
python
1url = "https:example.html" 2res = requests.get(url) 3soup = bs4(res.content,'lxml') 4 5kuchous = soup.find_all(class_ = "u_linkList" ) 6kuchous
出力
[<ul class="u_linkList"> <li><a href="https://4travel.jp/dm_area_kuchoson-yamaguchi.html">山口市</a></li> <li><a href="https://4travel.jp/dm_area_kuchoson-yudaonsen.html">湯田温泉</a></li> <li><a href="https://4travel.jp/dm_area_kuchoson-akiyoshidai.html">秋吉台</a></li> </ul>, <ul class="u_linkList"> <li><a href="https://4travel.jp/dm_area_kuchoson-dannoura.html">下関</a></li> <li><a href="https://4travel.jp/dm_area_kuchoson-ube.html">宇部・小野田</a></li> <li><a href="https://4travel.jp/dm_area_kuchoson-kawatana.html">川棚温泉</a></li> <li><a href="https://4travel.jp/dm_area_kuchoson-tsunoshima.html">角島・下関北部</a></li> </ul>, <ul class="u_linkList"> <li><a href="https://4travel.jp/dm_area_kuchoson-hofu.html">防府</a></li> <li><a href="https://4travel.jp/dm_area_kuchoson-tokuyama.html">徳山・周南</a></li> <li><a href="https://4travel.jp/dm_area_kuchoson-kudamatsu.html">下松・光</a></li> </ul>, <ul class="u_linkList"> <li><a href="https://4travel.jp/dm_area_kuchoson-iwakuni.html">岩国</a></li> <li><a href="https://4travel.jp/dm_area_kuchoson-kintaikyo.html">錦帯橋周辺</a></li> <li><a href="https://4travel.jp/dm_area_kuchoson-yanai.html">柳井・上関</a></li> <li><a href="https://4travel.jp/dm_area_kuchoson-yashirojima.html">周防大島 (屋代島)</a></li> </ul>, <ul class="u_linkList"> <li><a href="https://4travel.jp/dm_area_kuchoson-hagi.html">萩</a></li> <li><a href="https://4travel.jp/dm_area_kuchoson-nagato.html">長門市・長門湯本温泉</a></li> <li><a href="https://4travel.jp/dm_area_kuchoson-tawarayama.html">俵山温泉</a></li> </ul>, <ul class="u_linkList"> <li><a href="https://4travel.jp/dm_area_kuchoson-yamaguchi.html">山口市</a></li> <li><a href="https://4travel.jp/dm_area_kuchoson-yudaonsen.html">湯田温泉</a></li> <li><a href="https://4travel.jp/dm_area_kuchoson-akiyoshidai.html">秋吉台</a></li> </ul>, <ul class="u_linkList"> <li><a href="https://4travel.jp/dm_area_kuchoson-dannoura.html">下関</a></li> <li><a href="https://4travel.jp/dm_area_kuchoson-ube.html">宇部・小野田</a></li> <li><a href="https://4travel.jp/dm_area_kuchoson-kawatana.html">川棚温泉</a></li> <li><a href="https://4travel.jp/dm_area_kuchoson-tsunoshima.html">角島・下関北部</a></li> </ul>, <ul class="u_linkList"> <li><a href="https://4travel.jp/dm_area_kuchoson-hofu.html">防府</a></li> <li><a href="https://4travel.jp/dm_area_kuchoson-tokuyama.html">徳山・周南</a></li> <li><a href="https://4travel.jp/dm_area_kuchoson-kudamatsu.html">下松・光</a></li> </ul>, <ul class="u_linkList"> <li><a href="https://4travel.jp/dm_area_kuchoson-iwakuni.html">岩国</a></li> <li><a href="https://4travel.jp/dm_area_kuchoson-kintaikyo.html">錦帯橋周辺</a></li> <li><a href="https://4travel.jp/dm_area_kuchoson-yanai.html">柳井・上関</a></li> <li><a href="https://4travel.jp/dm_area_kuchoson-yashirojima.html">周防大島 (屋代島)</a></li> </ul>, <ul class="u_linkList"> <li><a href="https://4travel.jp/dm_area_kuchoson-hagi.html">萩</a></li> <li><a href="https://4travel.jp/dm_area_kuchoson-nagato.html">長門市・長門湯本温泉</a></li> <li><a href="https://4travel.jp/dm_area_kuchoson-tawarayama.html">俵山温泉</a></li> </ul>]
こちらを実行すると必要ではないURLも取得されてしまい断念しています。
python
1url = "https:example.html" 2res = requests.get(url) 3soup = bs4(res.content,'lxml') 4 5kuchous = soup.find_all(href = re.compile("https://4travel.jp/dm_area_kuchoson-")) 6kuchou_links = [kuchou.attrs["href"] for kuchou in kuchous] 7kuchou_links
回答1件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2021/08/05 01:22