前提・実現したいこと
サイトのHTMLから指定クラスに紐づくURL、及びそのタイトルを抽出したいです。
お力を貸していただけると非常に助かります。
抽出したいHTML(<div class~>は不要)
<div class="クラス名"> ---<a href="URL"> ------タイトル ---</a> </div>試したこと
cur_url = browser.current_url #URLの取得 cur_html = req.urlopen(cur_url) #HTMLの取得 soup = BeautifulSoup(cur_html,'html.parser') soup_find = soup.find_all('div', class_='クラス名') title_list = [] url_list = [] for i in soup_find : --- title_list.append(i.string) --- url_list.append(i.attrs['href'])
発生している問題・エラーメッセージ
TypeError: 'NoneType' object is not subscriptable
「url_list.append(i.attrs[href])」という行にエラーが発生しています。
同様の構成は下記のような抽出を行った後に今までも使用していましたが、問題なく動いていました。
soup_find = soup.find_all('a') title_list = [] url_list = [] for i in soup_find : --- title_list.append(i.string) --- url_list.append(i.attrs['href'])
回答2件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2020/12/13 20:30