Python：正規表現で文字列からURLだけを抽出したい

Pythonの正規表現を使い、文字列からURLを抽出したいです。
下記のコードに辿り着いたのですが、これだと語尾の「です」も一緒に抽出してしまいます。

python
1import re
2pattern = "https?://[\w/:%#\$&\?\(\)~\.=\+\-]+"
3text = "テストhttps://teratail.com/です"
4url_list = re.findall(pattern, text)
5print(url_list)
6#出力結果 ['https://teratail.com/です']
7#期待する出力  ['https://teratail.com/']

「です」を含めないように「https://teratail.com/」だけを抽出する良い方法はありませんでしょうか？
また、下記のような場合に独立してURLを取得する方法はありますでしょうか？

python
1import re
2pattern = "https?://[\w/:%#\$&\?\(\)~\.=\+\-]+"
3text = "テストhttps://teratail.com/https://teratail.com/です"
4url_list = re.findall(pattern, text)
5print(url_list)
6#出力結果 ['https://teratail.com/https://teratail.com/です']
7#期待する出力  ['https://teratail.com/', 'https://teratail.com/']

行動規範の内容に同意します

回答1件

ベストアンサー

前者は、\wをA-Za-z0-9_のように列挙すれば良いかと。
もしくは、pattern = re.compile("～～",re.ASCII)とASCIIモードでコンパイルして、\wが日本語にマッチしないようにする。

後者は、先読みを使って、

Python
1pattern = "https?://[A-Za-z0-9_/:%#$&?()~.=+-]+?(?=https?:|[^A-Za-z0-9_/:%#$&?()~.=+-]|$)"

とかでしょうか。元の正規表現にあった不要なバックスラッシュは省いています。

投稿2022/08/13 09:45

otn

総合スコア86316

退会済みユーザー

2022/08/13 10:22

期待通りの結果になりました。ありがとうございました。ベストアンサーとさせて頂きます。参考までにお聞きしたいのですが、例えば text = "テストhttps://teratail.com/https://teratail.com/です" はotn様の回答で、 ['https://teratail.com/', 'https://teratail.com/'] と出力されますが、これを ['テスト', 'https://teratail.com/', 'https://teratail.com/, 'です''] のようにする方法ありませんでしょうか？

otn

2022/08/13 10:26

簡単には、 pattern = "(https?://[A-Za-z0-9_/:%#$&?()~.=+-]+?(?=https?:|[^A-Za-z0-9_/:%#$&?()~.=+-]|$))" url_list = re.split(pattern, text) でしょうか。URL2つの間の空文字列も出力されますが。

退会済みユーザー

2022/08/13 11:15

ありがとうございます。からの要素を削除するのは簡単なので、非常に助かりました。ありがとうございました。今後ともよろしくお願いします！

行動規範の内容に同意します