[Python]全タグを除去する正規表現について

##分からないこと
htmlのタグを除去したいと思い、正規表現で色々試していました。
以下のコードで目的は達成したのですが、どういう理屈で検出できたのかが分かりません。

<.+> = <>に挟まれる文字が一回以上続く場合

だと思うのですが、 ? はどうして付くのでしょうか。

##コード

python
1pattern = '<.+?>'
2
3replace = ""
4
5html = """
6        <!DOCTYPE html>
7        <html lang="ja">
8          <head>
9            <meta charset="utf-8">
10            <title>タイトル</title>
11          </head>
12          <body>
13            <div class="wrapper">
14              <header>
15                <h1>メインタイトル</h1>
16                <nav id="global-nav">
17                  <ul>
18                    <li>リンク1</li>
19                    <li>リンク2</li>
20                    <li>リンク3</li>
21                    <li>リンク4</li>
22                    <li>リンク5</li>
23                  </ul>
24                </nav>
25              </header>
26              <div class="main-contents">
27                <h2>見出し</h2>
28                <p>テキストテキストテキスト</p>
29              </div>
30            </div>
31          </body>
32        </html>
33       """
34
35result = re.sub(pattern, replace, html)
36
37print(result)

何卒、ご回答の程よろしくお願いいたします。

行動規範の内容に同意します

回答2件

Pythonのドキュメントに、ほとんどそのまま理由が書いてあります。

######*?, +?, ??

'' 、 '+' 、 '?' といった修飾子は、すべて貪欲 (greedy) マッチ、すなわちできるだけ多くのテキストにマッチするようになっています。時にはこの動作が望ましくない場合もあります。例えば正規表現 <.> を '<a> b <c>' にマッチさせると、 '<a>' だけにマッチするのではなく全文字列にマッチしてしまいます。 ? を修飾子の後に追加すると、非貪欲 (non-greedy) あるいは最小一致 (minimal) のマッチになり、できるだけ少ない文字数のマッチになります。例えば正規表現 <.*?> を使うと '<a>' だけにマッチします。

引用元： Python 標準ライブラリ » re — 正規表現操作

投稿2019/01/23 11:17