前提・実現したいこと
題名通り、Beautiful Soupで親のDOMを拾い、テキストに変換指定です。
python
1""" 2getHtml()はアドレスを渡すだけで、HTMLのみを返してくれる関数です。 3返り値は、Beautiful Soupのオブジェクトとして、返されます。 4""" 5 6html = getHtml("URL") 7result1 = html.find_all("p") 8 9for i in result1: 10 print(i.parent.parent.get_text)
みたいな感じにしたいのですが、タグも一緒に出力されてしまいます。
この場合、テキストのみを抽出するには、タグそのものを正規表現を用いて消すしかないのでしょうか?
回答1件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。