指定クラス内のリンク抽出方法

前提・実現したいこと

サイトのHTMLから指定クラスに紐づくURL、及びそのタイトルを抽出したいです。
お力を貸していただけると非常に助かります。

抽出したいHTML（<div class～>は不要)

試したこと

cur_url = browser.current_url #URLの取得
cur_html = req.urlopen(cur_url) #HTMLの取得
soup = BeautifulSoup(cur_html,'html.parser')
soup_find = soup.find_all('div', class_='クラス名')

title_list = []
url_list = []

for i in soup_find :
--- title_list.append(i.string)
--- url_list.append(i.attrs['href'])

発生している問題・エラーメッセージ

TypeError: 'NoneType' object is not subscriptable

「url_list.append(i.attrs[href])」という行にエラーが発生しています。

同様の構成は下記のような抽出を行った後に今までも使用していましたが、問題なく動いていました。

soup_find = soup.find_all('a')

title_list = []
url_list = []

for i in soup_find :
--- title_list.append(i.string)
--- url_list.append(i.attrs['href'])

行動規範の内容に同意します

回答2件

自己解決

soup_find= soup.find_all(タグ名,attrs={'class':クラス名}).find_all('a')

というコードで無事動作しました。

指定したタグ名、クラス名の該当箇所が複数存在する場合、該当箇所内での順番(0～)を指定することもできました。
soup_find= soup.find_all(タグ名,attrs={'class':クラス名})[該当箇所内での順番].find_all('a')

投稿2020/12/13 18:29

ishikawaman

総合スコア2

rysh

2020/12/13 20:30

他の回答によって解決したのに、その回答を自分で投稿してベストアンサーにするのはマナー違反では？

行動規範の内容に同意します

hrefはaタグの属性（attr）なのでクラス指定してdivをとったあと、divの中のaを取り出してそのattrにアクセスしないといけないですよ。

投稿2020/12/11 01:05

rysh

総合スコア874

ishikawaman

2020/12/12 13:31

回答ありがとうございます。順序だてて処理しなければならないことは理解できました。 ①「クラス指定してdivをとったあと」 ---soup_find = soup.find_all('div', class_='クラス名') ②「divの中のaを取り出して」 ---soup_find = soup.find_all('a') ③「そのattrにアクセス」 ---for i in soup_find: ------リスト名.append(i.attrs['href']) 上記のように解釈して実行してみたのですが、①の出力形式が <class 'bs4.BeautifulSoup'> → <class 'bs4.element.ResultSet'> に変換されているためか、②でエラーが発生してしまいます。 find_all を連続して実行する方法、またはデータ形式を元に戻す方法などご存じでしたらご教示いただけないでしょうか？