質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
スクレイピング

スクレイピングとは、公開されているWebサイトからページ内の情報を抽出する技術です。

Google Colaboratory

Google Colaboratoryとは、無償のJupyterノートブック環境。教育や研究機関の機械学習の普及のためのGoogleの研究プロジェクトです。PythonやNumpyといった機械学習で要する大方の環境がすでに構築されており、コードの記述・実行、解析の保存・共有などが可能です。

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

Q&A

解決済

2回答

2044閲覧

pythonでのwebスクレイピングで作成したURLリストから特定の文字を含むURLのみを取得する方法について

kkk12

総合スコア15

スクレイピング

スクレイピングとは、公開されているWebサイトからページ内の情報を抽出する技術です。

Google Colaboratory

Google Colaboratoryとは、無償のJupyterノートブック環境。教育や研究機関の機械学習の普及のためのGoogleの研究プロジェクトです。PythonやNumpyといった機械学習で要する大方の環境がすでに構築されており、コードの記述・実行、解析の保存・共有などが可能です。

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

0グッド

0クリップ

投稿2020/03/03 17:36

現在pythonでwebスクレイピングを行っています。
URLリスとを作成するところまでは実現できたのですが、リスト内のURLには関係ないURLも含まれております。
そこで"https://****/Forum/ja/"を含むURLのみを抽出したいと考え実装を行っておりますが、実現できません。
どの様にすればよろしいでしょうか?お力添えよろしくお願いいたします。

python

1from bs4 import BeautifulSoup 2import requests 3 4# アクセスするURL 5url = "https://****/Forum/ja/home" 6 7# htmlを取得、BeautifulSoupで扱う 8 9r = requests.get(url) 10soup = BeautifulSoup(r.content, 'html.parser') # BeautifulSoupの初期化 11 12tags = soup.find_all("a") 13for tag in tags: 14 print(tag.get("href"))

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答2

0

自己解決

パターンリストを作成しURLのみを抽出しました。
お力を貸してくださった回答者様ありがとうございました。

python

1pattern = "https?://[\w/:%#$&?()~.=+\-]+" 2text = url_list 3url_list = re.findall(pattern, text) 4print(url_list)

投稿2020/03/04 17:30

kkk12

総合スコア15

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

0

reで正規表現しましょう。

python

1import re 2 3href = tag.get("href") 4if re.match(r'https://.+/Forum/ja/', href): 5 print(herf)

条件がこれだけならもっと単純に

python

1if href[:8] == 'https://' and href[-10:] == '/Forum/ja/': 2 print(herf)

でもいいですね。

ただし、リンクがhttpsまで入った絶対パスで書いてあるとは限らないのでurllib.parse.urljoinで絶対パスにしたほうがいいと思います。

python

1from urllib.parse import urljoin 2 3href = urljoin(url, tag.get("href"))

本当に左はhttps://まででいいんでしょうか?

投稿2020/03/03 18:12

編集2020/03/03 18:14
kairi003

総合スコア1330

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問