前提・実現したいこと

Python3.xにて、特定のHTMLタグの間の存在する不要なタグを正規表現で置換するプログラムを作成しています。

発生している問題・エラーメッセージ

下記のソースコードを基にすると、<div class="main"><h2 class="h2_main"> ~ </h2></div>間に存在する全てのHTMLタグを正規表現により置換し削除したいのですが、パターンにマッチさせることができず困っております。

該当のソースコード

Python
1text = '<p>文字列1</p><div class="main"><h2 class="h2_main"><p>文字列2</p>文字列3<em>文字列4</em></h2></div>'
2
3output = re.sub('(<div class="main"><h2 class="h2_main">)((?!<.*?>.*?))(</h2></div>)', '\1\2\3', text)
4print(output)
5
6# 現状(マッチせずそのまま出力される)
7<p>文字列1</p><div class="main"><h2 class="h2_main"><p>文字列2</p>文字列3<em>文字列4</em></h2></div>
8
9# 期待する出力
10<p>文字列1</p><div class="main"><h2 class="h2_main">文字列2文字列3文字列4</h2></div>

以上、よろしくお願いいたします。

ご回答を基にした最終的なコード

Pythpn
1from bs4 import BeautifulSoup
2
3text = '<p>文字列1</p><div class="main"><h2 class="h2_main"><p>文字列2</p>文字列3<em>文字列4</em></h2</div>'
4
5soup = BeautifulSoup(text, 'html.parser')
6
7for h2 in soup.find_all('h2'):
8    for e in h2.find_all():
9        e.unwrap()
10
11print(soup)

行動規範の内容に同意します

回答1件

ベストアンサー

一気に片付けようとするから複雑になるのです。

まずコアの処理を担う関数を書いてやります。

Python
1def remove_tags(src):
2    return re.sub(r'<.+?>', r'', src)
3
4assert remove_tags(r'<p>文字列2</p>文字列3<em>文字列4</em>') == r'文字列2文字列3文字列4'

そして、それを上手く活用してコードを拡張してやれば良いのです。

Python
1result = re.sub(
2    r'(?<=<div class="main"><h2 class="h2_main">)(.+?)(?=</h2></div>)',
3    lambda m: remove_tags(m.group(1)),
4    text
5)

あるいは

Python
1result = re.sub(
2    r'(<div class=".+?"><h2 class=".+?">)(.+?)(</h2></div>)',
3    lambda m: f'{m.group(1)}{remove_tags(m.group(2))}{m.group(3)}',
4    text
5)

(Pythonは量指定子を含んだ先読み・後読みに対応していないのです。)

実行結果 Wandbox

<p>文字列1</p><div class="main"><h2 class="h2_main">文字列2文字列3文字列4</h2></div>

別解

正規表現に拘らないのであれば、こんな方法でも良いです。

Python
1from bs4 import BeautifulSoup
2
3
4text = '<p>文字列1</p><div class="main"><h2 class="h2_main"><p>文字列2</p>文字列3<em>文字列4</em></h2></div>'
5soup = BeautifulSoup(text, 'html.parser')
6
7h2 = soup.find('h2')
8for e in h2.find_all():
9    e.unwrap()
10
11print(soup)

実行結果

<p>文字列1</p><div class="main"><h2 class="h2_main">文字列2文字列3文字列4</h2></div>

実質三行で書けました。

参考： Beautiful Soup 4.2.0 Doc. 日本語訳

投稿2018/11/30 17:19

編集2018/11/30 17:33

LouiS0616

総合スコア35678

furozy

2018/12/01 09:17

ご回答ありがとうございます。仰る通り、無理に正規表現を使わなくてもBeautifulSoupで実現することができました。 <h2>タグが複数存在するケースを考慮した最終的なコードを追記いたしました。

行動規範の内容に同意します

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.30%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

特定のHTMLタグの間に存在する不要なタグを正規表現で置換し削除する

前提・実現したいこと

発生している問題・エラーメッセージ

該当のソースコード

ご回答を基にした最終的なコード

別解

関連した質問