re.searchの書き方について、下記コードの理解の仕方を教えていただければ幸いです。

下記HTMLについて

--text----------------

■取り出したい部分（<<section class="post-content" itemprop="text">以降<h3>の前までの下記部分）

<div id="toi"><strong>【問題】</strong><br/> ・・・ </div> <div id="kaitou"> ・・・ </div> ・・・

■正しいコード

import re

m = re.search(r'<section.+?>(.+?)<h3>.?</h3>.?</section>', text, re.S)
matched = m.group(1).strip()

print(matched)

■調べた内容

①「+」や「?」は貧欲マッチだから、<section.+?>の部分は、
「class="post-content" itemprop="text"」をとってくる

②.（ドット）は、切り取る部分？

上記までしか分からない状況です。

■上記コードの理解の仕方を教えていただければ幸いです。

行動規範の内容に同意します

回答1件

ベストアンサー

そこんところの文字列は、正規表現という一種のスクリプトとなってます
.+*?や()の文字は特別な意味を持ちます

サルにもわかる正規表現入門

投稿2021/11/16 05:33

y_waiwai

総合スコア88042

onodesu

2021/11/16 06:17

ありがとうございます！下記ページも参考にしました。 https://www.geisya.or.jp/~mwm48961/programming/python_regexp.htm ① .*?　→　最短マッチということで下記部分は理解できました！ <h3>.*?</h3>.*?</section> ② 「.+?」がまだ理解できないです。 .は、とにかくなんでもいい１文字 +は、最低でも１個は + の直前の文字がないといけなくて、直前の文字の繰り返し？は、直前の文字がまったくないか、１つだけある下記ページには「+?」は、直前のパターンの1回以上連続と書いてありますがそうすると「.+?」は、文字数はどれだけでもよくでも、どんな文字でも入ってもいい？ということでしょうか？例えば「sinesirke sosi sorkr」というような文字でもOKという意味でしょうか？そうすると「.*?」との違いも分からず、理解できていない状況です。 ③ (.+?)についてなぜ、ここだけ(カッコ)があるのか？初学者なので、教えていただければ幸いです。