python　スクレイピング　クラスが抽出出来ない

https://qiita.com/r34b26/items/d54a91b205450611e8c3
こちらのサイトを参考にしてスクレイピングをしているのですが
urlをリストにまとめる段階で、タグはとれるのですが、正規化表現のクラスから抽出出来ません。

python
1from bs4 import BeautifulSoup
2import requests
3import re
4import time
5#urlを指定
6url = 'https://retrip.jp/'
7
8#情報を取得します
9
10r = requests.get('https://retrip.jp/')
11soup = BeautifulSoup(r.content, 'html.parser')
12
13
14# #1面から見るべきurlをリストにまとめる
15
16urls = [url + i.get('href') for i in soup.find_all('a', href=re.compile('^/articles/')) ]
17print(len(urls))

実現したいこと
下記urls にaタグhrefのfindに引っかかったページをurlを抽出しリスト化する

python
1urls = [url + i.get('href') for i in soup.find_all('a', href=re.compile('^/articles/')) ]
2print(len(urls))

問題点
後半 href~~以降の正規化表現の抽出が出来ておらず
listが全て0で返ってくる

試した事
・aタグのみで抽出→成功
・soupを抽出→成功
・('^/articles/')にrつけたり消したり→抽出０

基本的にhref以降を抽出しようとしても、何も抽出されずに返ってきます。

ご教授お願い致します。

退会済みユーザー

2020/12/26 01:36

> listが全て0で返ってくる ^を消去して実行すると、len(urls)は0以外の値で返ってきます。これで問題点は解消されるのでしょうか。

退会済みユーザー

2020/12/26 02:28 編集

元記事の更新が2018年。2年たって対象サイトの構造自体が変わっています。だから丸コピでうまく動かないのは当たり前です。

forest0720

2020/12/26 02:46

ありがとうございます。^を消去したら解決致しました指定文字列の合致なので、問題点だと思っておりませんでした。。何故なんだろう、助かりました！

行動規範の内容に同意します

回答1件

自己解決

^を消去したら解決致しました
指定文字列の合致なので、問題点だと思っておりませんでした。。

上記で解決致しました。ありがとうございました。

投稿2021/02/14 06:24

forest0720

総合スコア5

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.36%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

『🎄teratailクリスマスプレゼントキャンペーン2024🎄』開催中！

＼teratail特別グッズやAmazonギフトカード最大2,000円分が当たる！／

python　スクレイピング　クラスが抽出出来ない

関連した質問