python 正規表現で文字列を分割したいのに……

前提・実現したいこと

python3で読み込んだ下記のテキストファイルに対して、
正規表現をかけて分割しようとしているのですがうまくいきません…。

<[Project] HTML section>
	contents_html=/test.html 1 all_time
</[Project] HTML section>

<[Project] Message section>
	title="TEST Selenium Alert"
	smtp_server=smtp.gmail.com
	body=main message
	from=test_from
	to=test_to
</[Project] Messaging section>

試したこと

pythoon3
1
2import re
3
4#読み込んだテキスト
5text = '\n<[Project] HTML section>\n\tcontents_html=/test.html 1 all_time\n</[Project] HTML section>\n\n<[Project] Message section>\n\ttitle="TEST Selenium Alert"\n\tsmtp_server=smtp.gmail.com\n\tbody=main message\n\tfrom=test_from\n\tto=test_to\n</[Project] Messaging section>\n'
6
7result = re.findall(r'<.+>.+</.+>',text,re.DOTALL)
8

進めているうちに「貪欲マッチなんてあったなぁ」等と思い出しながら色々と試しましたが、
中々思うようにいきません。

↓求めている結果

result = [
'<[Project] HTML section>略</[Project] HTML section>',
'<[Project] Message section>略</[Project] Message section>'
]

誰か助けてください(泣)

Hyugopython

2021/05/13 05:59

htmlファイルというと、どこからかスクレイピングして取得してきているのですか? seleniumとか、bs4であれば正規表現を使わずにお望みのことをできると思います、

行動規範の内容に同意します

回答1件

ベストアンサー

「貪欲マッチなんてあったなぁ」

はい、貪欲マッチを避けて非貪欲マッチを使えば解決するはずです。正規表現中の + を +? に置き換えてください。（3つとも)

それでもデータが title="TEST </Selenium> Alert" なんてなっていると期待通りには動かないとは思いますが。

投稿2021/05/13 06:08

編集2021/05/13 06:39

int32_t

総合スコア21695

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.35%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう！

python 正規表現で文字列を分割したいのに……

前提・実現したいこと

試したこと

関連した質問