HTML文書内の</a>の削除（スクレイピング時）

使用言語：python3.x
内容：Beautifulsoupの使用方法、タグの削除

スクレイピングを行っている際に、疑問に思った内容があります。

【不意に現れる</a>】
ページ作成時のごみなのか、</a>のみ（<a ~~>の方が無い）が突如
HTML内に表れてこれにより情報が抽出できないということがありました。

【以下読み取りたいhtmlのタグイメージ】
--tableタグ内--

この内容をAA,BB,CC,DD,を抜き取りたいのですが（連続でもバラバラでもOK)、
</a>で<tr>タグが終了する判定となるようで、soup.find('td')では「AA」しか抽出できなくて困っていました。

そこで</a>タグを消去する方法として、HTML全文を抜き取って文字列置換で実現したのですが、
抽出時に</a>のみのタグを削除できる方法があればと思っています。

スクレイピングはまた行うので、後学のためも含めて
知識のある方おられましたら教えていただけますと幸いです。

よろしくお願いいたします。

行動規範の内容に同意します

回答1件

ベストアンサー

パーサによるかと。lxmlだとうまく取得できるようです。

Python
1from bs4 import BeautifulSoup
2
3for parser in ['html.parser', 'lxml', 'html5lib']:
4    soup = BeautifulSoup('<tr><th>最寄駅</th><td>AA</a>BB<br>CC</a>DD</td></tr>', parser)
5    td = soup.find('td')
6    text = None
7    if td:
8        text = td.text
9    print( parser, td, text)
10
11#html.parser <td>AA</td> AA
12#lxml <td>AABB<br/>CCDD</td> AABBCCDD
13#html5lib None None