使用言語:python3.x
内容:Beautifulsoupの使用方法、タグの削除
スクレイピングを行っている際に、疑問に思った内容があります。
【不意に現れる</a>】
ページ作成時のごみなのか、</a>のみ(<a ~~>の方が無い)が突如
HTML内に表れてこれにより情報が抽出できないということがありました。
【以下読み取りたいhtmlのタグイメージ】
--tableタグ内--
この内容をAA,BB,CC,DD,を抜き取りたいのですが(連続でもバラバラでもOK)、
</a>で<tr>タグが終了する判定となるようで、soup.find('td')では「AA」しか抽出できなくて困っていました。
そこで</a>タグを消去する方法として、HTML全文を抜き取って文字列置換で実現したのですが、
抽出時に</a>のみのタグを削除できる方法があればと思っています。
スクレイピングはまた行うので、後学のためも含めて
知識のある方おられましたら教えていただけますと幸いです。
よろしくお願いいたします。
回答1件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2019/09/04 15:10