pythonでリンク(a href)を順次取得していきたいのですが、
コメント内部にあるリンクも取得してしまって困っています。
例えば以下のURLを取得してしまいます。
./lp/tomomura/index.html
html
1 <!-- <div> 2 <ul> 3 <li><a href="./lp/xxxx/index.html"><img src="./assets/images/top/banner-xxxx.png" alt=""></a></li> 4 </ul> 5 </div> -->
現状のコード(要点のみ抜粋)は以下の通りです。
python
1import requests 2import lxml.html 3from bs4 import BeautifulSoup 4 5url = 'https://xxxxxx' 6next_url = [] 7 8res = requests.get(url) 9html = res.text 10soup = BeautifulSoup(html, 'html.parser') 11html = lxml.html.fromstring(html) 12html.make_links_absolute(url) 13 14anchors = html.xpath("//a") 15for anch in anchors: 16 try: 17 href = anch.attrib['href'] 18 except: 19 href = "" 20 if href != "": 21 next_url.append(href) 22
よろしくお願い致します。
回答1件
あなたの回答
tips
プレビュー