Pythonでページ内のaタグの一覧を作りたいのですが、リンク切れURLを見つけるとストップしてしまいます。

pythonで以下のコードを実行すると
途中まではaタグ内のURLをちゃんと取得してくれるのですが、
リンク切れのURL（https://kaigobed.net/?pid=32727997）を表示したあと、処理が終了してしまいます。

チェック対象のページ（'https://kaigobed.net/?mode=cate&cbid=2642391&csid=0'）内の全てのaタグ内のURLを取得したいのですが、どのようにソースを変えればよいでしょうか。
ご教示いただけますと幸いです。

python
1response = session.get('https://kaigobed.net/?mode=cate&cbid=2642391&csid=0')
2
3root = lxml.html.fromstring(response.content)
4root.make_links_absolute(response.url)
5
6for atag in root.cssselect('a[href]'):
7    url = atag.get('href')
8    print(url)

nto

2020/09/01 04:39

対象としたサイトがどの様な構造で、どの様なサイトなのかがわからないので回答し難いです。また「>> リンク切れのURL」とは具体的にどういうものをおっしゃいたいのでしょうか？リンク先がアクセスしても404という事でしょうか？それともhref属性が与えられていない要素という事でしょうか？一概に「リンクが切れてる」だけでは、相手にどういった状態であるものを差しているのかは具体的には伝わりません。詳細を記載してください。

crystalglass

2020/09/01 08:02

御意見ありがとうございます。具体的にどのページを対象とし、どのページでエラーが発生しているかを記載しました。御確認お願い致します。

行動規範の内容に同意します

回答1件

ベストアンサー

lxmlではなくBeautifulSoupを使用する方が便利です。

python
1import requests
2from bs4 import BeautifulSoup
3
4target = 'https://kaigobed.net/?mode=cate&cbid=2642391&csid=0'
5response = requests.get(target)
6soup = BeautifulSoup(response.text, 'html.parser')
7
8# ページ内の全ての<a>要素のhref属性の抽出
9links = soup.find_all('a')
10for link in links:
11	print(link.get('href'))
12
13
14# ページ左部のナビメニューのリンクのみを抽出する場合
15navi = soup.find_all(class_='leftnav')
16for menu in navi:
17	for links in menu.find_all('a'):
18		print(links.get('href'))
19