pythonでのwebスクレイピングで作成したURLリストから特定の文字を含むURLのみを取得する方法について

現在pythonでwebスクレイピングを行っています。
URLリスとを作成するところまでは実現できたのですが、リスト内のURLには関係ないURLも含まれております。
そこで"https://****/Forum/ja/"を含むURLのみを抽出したいと考え実装を行っておりますが、実現できません。
どの様にすればよろしいでしょうか？お力添えよろしくお願いいたします。

python
1from bs4 import BeautifulSoup
2import requests
3
4# アクセスするURL
5url = "https://****/Forum/ja/home"
6
7# htmlを取得、BeautifulSoupで扱う
8
9r = requests.get(url)
10soup = BeautifulSoup(r.content, 'html.parser') # BeautifulSoupの初期化
11
12tags = soup.find_all("a")
13for tag in tags:
14  print(tag.get("href"))

行動規範の内容に同意します

回答2件

自己解決

パターンリストを作成しURLのみを抽出しました。
お力を貸してくださった回答者様ありがとうございました。

python
1pattern = "https?://[\w/:%#$&?()~.=+\-]+"
2text = url_list
3url_list = re.findall(pattern, text)
4print(url_list)

投稿2020/03/04 17:30

kkk12

総合スコア15

reで正規表現しましょう。

python
1import re
2
3href = tag.get("href")
4if re.match(r'https://.+/Forum/ja/', href):
5    print(herf)

条件がこれだけならもっと単純に

python
1if href[:8] == 'https://' and href[-10:] == '/Forum/ja/':
2    print(herf)

でもいいですね。

ただし、リンクがhttpsまで入った絶対パスで書いてあるとは限らないのでurllib.parse.urljoinで絶対パスにしたほうがいいと思います。

python
1from urllib.parse import urljoin
2
3href = urljoin(url, tag.get("href"))

本当に左はhttps://まででいいんでしょうか？

投稿2020/03/03 18:12

編集2020/03/03 18:14

kairi003

総合スコア1330

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう！

pythonでのwebスクレイピングで作成したURLリストから特定の文字を含むURLのみを取得する方法について

関連した質問