質問するログイン新規登録
Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

正規表現

正規表現とは特定の文字列によるパターンマッチングを行う際に用いられる宣言型プログラミングです。

Q&A

解決済

1回答

3763閲覧

特定のHTMLタグの間に存在する不要なタグを正規表現で置換し削除する

furozy

総合スコア17

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

正規表現

正規表現とは特定の文字列によるパターンマッチングを行う際に用いられる宣言型プログラミングです。

0グッド

1クリップ

投稿2018/11/30 16:36

編集2018/12/01 09:15

0

1

前提・実現したいこと

Python3.xにて、特定のHTMLタグの間の存在する不要なタグを正規表現で置換するプログラムを作成しています。

発生している問題・エラーメッセージ

下記のソースコードを基にすると、<div class="main"><h2 class="h2_main"> ~ </h2></div>間に存在する全てのHTMLタグを正規表現により置換し削除したいのですが、パターンにマッチさせることができず困っております。

該当のソースコード

Python

1text = '<p>文字列1</p><div class="main"><h2 class="h2_main"><p>文字列2</p>文字列3<em>文字列4</em></h2></div>' 2 3output = re.sub('(<div class="main"><h2 class="h2_main">)((?!<.*?>.*?))(</h2></div>)', '\1\2\3', text) 4print(output) 5 6# 現状(マッチせずそのまま出力される) 7<p>文字列1</p><div class="main"><h2 class="h2_main"><p>文字列2</p>文字列3<em>文字列4</em></h2></div> 8 9# 期待する出力 10<p>文字列1</p><div class="main"><h2 class="h2_main">文字列2文字列3文字列4</h2></div>

以上、よろしくお願いいたします。

ご回答を基にした最終的なコード

Pythpn

1from bs4 import BeautifulSoup 2 3text = '<p>文字列1</p><div class="main"><h2 class="h2_main"><p>文字列2</p>文字列3<em>文字列4</em></h2</div>' 4 5soup = BeautifulSoup(text, 'html.parser') 6 7for h2 in soup.find_all('h2'): 8 for e in h2.find_all(): 9 e.unwrap() 10 11print(soup)

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

ベストアンサー

一気に片付けようとするから複雑になるのです。


まずコアの処理を担う関数を書いてやります。

Python

1def remove_tags(src): 2 return re.sub(r'<.+?>', r'', src) 3 4assert remove_tags(r'<p>文字列2</p>文字列3<em>文字列4</em>') == r'文字列2文字列3文字列4'

そして、それを上手く活用してコードを拡張してやれば良いのです。

Python

1result = re.sub( 2 r'(?<=<div class="main"><h2 class="h2_main">)(.+?)(?=</h2></div>)', 3 lambda m: remove_tags(m.group(1)), 4 text 5)

あるいは

Python

1result = re.sub( 2 r'(<div class=".+?"><h2 class=".+?">)(.+?)(</h2></div>)', 3 lambda m: f'{m.group(1)}{remove_tags(m.group(2))}{m.group(3)}', 4 text 5)

(Pythonは量指定子を含んだ先読み・後読みに対応していないのです。)

実行結果 Wandbox

<p>文字列1</p><div class="main"><h2 class="h2_main">文字列2文字列3文字列4</h2></div>

別解

正規表現に拘らないのであれば、こんな方法でも良いです。

Python

1from bs4 import BeautifulSoup 2 3 4text = '<p>文字列1</p><div class="main"><h2 class="h2_main"><p>文字列2</p>文字列3<em>文字列4</em></h2></div>' 5soup = BeautifulSoup(text, 'html.parser') 6 7h2 = soup.find('h2') 8for e in h2.find_all(): 9 e.unwrap() 10 11print(soup)

実行結果

<p>文字列1</p><div class="main"><h2 class="h2_main">文字列2文字列3文字列4</h2></div>

実質三行で書けました。

参考: Beautiful Soup 4.2.0 Doc. 日本語訳

投稿2018/11/30 17:19

編集2018/11/30 17:33
LouiS0616

総合スコア35678

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

furozy

2018/12/01 09:17

ご回答ありがとうございます。 仰る通り、無理に正規表現を使わなくてもBeautifulSoupで実現することができました。 <h2>タグが複数存在するケースを考慮した最終的なコードを追記いたしました。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.30%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問