前提・実現したいこと
爆砕のレスをPYTHONでスクレイピングしようとしています。
単純な方法では、改行タグのせいで出力がNoneで返ってきますので、
仕方なく添付しておりますコードにしております。
問題は解決したのですが、応用性が悪く、日にちが変われば使えません。
タグをキレイに整理された状態で出力したいです。
発生している問題・エラーメッセージ
<div>タグで区切ると欲しいデータが丸々ありますが、 いらないタグや改行によっては抜け落ちる行があります。該当のソースコード
import requests from bs4 import BeautifulSoup r = requests.get("http://kanto.hostlove.com/caat/20181028151541/a/1") soup = BeautifulSoup(r.content, "html.parser") for i in soup.find_all("div", class_="res"): for j in i.contents: print(j.string) コード
試したこと
そこで、欠落しない状態にしてから、
条件で不要な文字を削除する方法をとりました。
※コードはfor文以下を変えております。
product = soup.find_all("div",class_="res") for i in product: j =str(i) j=j.replace("<div class=","") j=j.replace('"res">',"") j=j.replace("</div>","") j=j.replace("</br>","") j=j.replace("<br>","") j=j.replace('<a class="cmt fancybox fancyboxAjax" data-param="?tnum=20181028151541&cnum=3" href="/caat/20181028151541/n3">>>3</a><br/>',"") j=j.replace('<a class="cmt fancybox fancyboxAjax" data-param="?tnum=20181028151541&cnum=7" href="/caat/20181028151541/n7">>>7</a><br/>',"") print(j) コード
補足情報(FW/ツールのバージョンなど)
python3.5を使用しております。
beautiful soupをより良い形にできれば、タグをキレイにし、
Noneや欠落した文字列を欠落せずにできると思うので、良い方法を教えてください。

回答1件
あなたの回答
tips
プレビュー