https://qiita.com/r34b26/items/d54a91b205450611e8c3
こちらのサイトを参考にしてスクレイピングをしているのですが
urlをリストにまとめる段階で、タグはとれるのですが、正規化表現のクラスから抽出出来ません。
python
1from bs4 import BeautifulSoup 2import requests 3import re 4import time 5#urlを指定 6url = 'https://retrip.jp/' 7 8#情報を取得します 9 10r = requests.get('https://retrip.jp/') 11soup = BeautifulSoup(r.content, 'html.parser') 12 13 14# #1面から見るべきurlをリストにまとめる 15 16urls = [url + i.get('href') for i in soup.find_all('a', href=re.compile('^/articles/')) ] 17print(len(urls))
実現したいこと
下記urls にaタグhrefのfindに引っかかったページをurlを抽出しリスト化する
python
1urls = [url + i.get('href') for i in soup.find_all('a', href=re.compile('^/articles/')) ] 2print(len(urls))
問題点
後半 href~~以降の正規化表現の抽出が出来ておらず
listが全て0で返ってくる
試した事
・aタグのみで抽出→成功
・soupを抽出→成功
・('^/articles/')にrつけたり消したり→抽出0
基本的にhref以降を抽出しようとしても、何も抽出されずに返ってきます。
ご教授お願い致します。
回答1件
あなたの回答
tips
プレビュー