前提・実現したいこと
python3で読み込んだ下記のテキストファイルに対して、
正規表現をかけて分割しようとしているのですがうまくいきません…。
<[Project] HTML section> contents_html=/test.html 1 all_time </[Project] HTML section> <[Project] Message section> title="TEST Selenium Alert" smtp_server=smtp.gmail.com body=main message from=test_from to=test_to </[Project] Messaging section>
試したこと
pythoon3
1 2import re 3 4#読み込んだテキスト 5text = '\n<[Project] HTML section>\n\tcontents_html=/test.html 1 all_time\n</[Project] HTML section>\n\n<[Project] Message section>\n\ttitle="TEST Selenium Alert"\n\tsmtp_server=smtp.gmail.com\n\tbody=main message\n\tfrom=test_from\n\tto=test_to\n</[Project] Messaging section>\n' 6 7result = re.findall(r'<.+>.+</.+>',text,re.DOTALL) 8
進めているうちに「貪欲マッチなんてあったなぁ」等と思い出しながら色々と試しましたが、
中々思うようにいきません。
↓求めている結果
result = [ '<[Project] HTML section>略</[Project] HTML section>', '<[Project] Message section>略</[Project] Message section>' ]
誰か助けてください(泣)
htmlファイルというと、どこからかスクレイピングして取得してきているのですか?
seleniumとか、bs4であれば正規表現を使わずにお望みのことをできると思います、
回答1件
あなたの回答
tips
プレビュー