下記HTMLについて
--text----------------
<section class="post-content" itemprop="text"> <div id="toi"><strong>【問題】</strong><br/> ・・・ </div> <div id="kaitou"> ・・・ </div> ・・・ <h3>・・・</h3> ・・・ <section>■取り出したい部分(<<section class="post-content" itemprop="text">以降<h3>の前までの下記部分)
<div id="toi"><strong>【問題】</strong><br/> ・・・ </div> <div id="kaitou"> ・・・ </div> ・・・
■正しいコード
import re
m = re.search(r'<section.+?>(.+?)<h3>.?</h3>.?</section>', text, re.S)
matched = m.group(1).strip()
print(matched)
■調べた内容
①「+」や「?」は貧欲マッチだから、<section.+?>の部分は、
「class="post-content" itemprop="text"」をとってくる
②.(ドット)は、切り取る部分?
上記までしか分からない状況です。
■上記コードの理解の仕方を教えていただければ幸いです。
回答1件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2021/11/16 06:17
2021/11/16 06:36
2021/11/16 06:40
2021/11/16 08:03
2021/11/16 15:18