正規表現でYouTubeのURLから余分なクエリを削除したい

YouTubeの動画へのURLが大量にあり、pythonと正規表現を使って&以降の余分なクエリを削除し、それぞれをhttps://www.youtube.com/watch?v={video_id}の形に直そうとしています。
re.sub(r"(.*)(&.*)", r"\1", url)で変換すると追加のクエリが1つの場合は上手くいくのですが、&が2つ以上だと末尾のものしか検知されません。
どう書き換えれば良いのでしょうか?

[Wandbox]三へ( へ՞ਊ ՞)へﾊｯﾊｯ

Python
1import re
2
3
4def main():
5    raw_urls = [
6        "https://www.youtube.com/watch?v=_066dEkycr4",
7        "https://www.youtube.com/watch?v=_066dEkycr4&t=6",
8        "https://www.youtube.com/watch?v=_066dEkycr4&feature=youtu.be&t=6",
9        "https://www.youtube.com/watch?v=_066dEkycr4&list=WL&index=0&t=6s",
10    ]
11    urls = [re.sub(r"(.*)(&.*)", r"\1", url) for url in raw_urls]
12    print(*urls, sep="\n")
13
14
15if __name__ == "__main__":
16    main()

Output
1# 全てが https://www.youtube.com/watch?v=_066dEkycr4 となるようにしたい
2https://www.youtube.com/watch?v=_066dEkycr4
3https://www.youtube.com/watch?v=_066dEkycr4
4https://www.youtube.com/watch?v=_066dEkycr4&feature=youtu.be
5https://www.youtube.com/watch?v=_066dEkycr4&list=WL&index=0

Takumiboo

2020/03/16 13:16

YouTubeから発行されるURLとしては存在しない気がしますが、万が一最初のパラメータがvじゃなかった場合(https://www.youtube.com/watch?list=WL&v=_066dEkycr4&index=0&t=6s など)って考えますか？

退会済みユーザー

2020/03/16 19:33

もし、それを想定するなら、どうするのがいいでしょうか?

Takumiboo

2020/03/17 00:25

皆さんの回答だと&以降を除去するというパターンだと思いますが、上記の場合だと動画IDも削られてしまいます。例えば「v=」の後から、&の手前まで、もしくは行末まで、という拾い方をすれば動画IDだけ抽出できると思うので、改めて「https://www.youtube.com/watch?v=」の後ろにその動画IDをつければ間違いないと思います。

退会済みユーザー

2020/03/17 00:49

なるほど、ありがとうございます。

行動規範の内容に同意します

回答3件

(.*)(&.*)では、最初の.*が最長(貪欲)マッチしますので、次の&を満たすかぎりで最長のところまで取られます。
元コードを尊重するなら対処法は2つ思いつきます。
・(.*?)(&.*)として最短(lazy・non-greedy)マッチにする
・([^&]*)(&.*)として&以外にマッチさせる

投稿2020/03/16 17:03

ikadzuchi

総合スコア3047

退会済みユーザー

2020/03/18 06:14

.*は最長マッチなんですね。勉強になりました

行動規範の内容に同意します

ベストアンサー

単純に、

Python
1re.sub("&.*", "", url)

投稿2020/03/16 13:40

otn

総合スコア85901

py:
1url = "https://www.youtube.com/watch?v=_066dEkycr4&feature=youtu.be&t=6"
2url = url.split("&")[0]

とすればできると思います．

投稿2020/03/16 12:22

spoofy_dragon

総合スコア1248

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.35%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう！

正規表現でYouTubeのURLから余分なクエリを削除したい

関連した質問