##分からないこと
htmlのタグを除去したいと思い、正規表現で色々試していました。
以下のコードで目的は達成したのですが、どういう理屈で検出できたのかが分かりません。
<.+> = <>に挟まれる文字が一回以上続く場合
だと思うのですが、 ? はどうして付くのでしょうか。
##コード
python
1pattern = '<.+?>' 2 3replace = "" 4 5html = """ 6 <!DOCTYPE html> 7 <html lang="ja"> 8 <head> 9 <meta charset="utf-8"> 10 <title>タイトル</title> 11 </head> 12 <body> 13 <div class="wrapper"> 14 <header> 15 <h1>メインタイトル</h1> 16 <nav id="global-nav"> 17 <ul> 18 <li>リンク1</li> 19 <li>リンク2</li> 20 <li>リンク3</li> 21 <li>リンク4</li> 22 <li>リンク5</li> 23 </ul> 24 </nav> 25 </header> 26 <div class="main-contents"> 27 <h2>見出し</h2> 28 <p>テキストテキストテキスト</p> 29 </div> 30 </div> 31 </body> 32 </html> 33 """ 34 35result = re.sub(pattern, replace, html) 36 37print(result)
何卒、ご回答の程よろしくお願いいたします。
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。