前提・実現したいこと

beautifulsoupでwebページのスクレイピングをしています。
あるdivから、 などのタグをhtml形式として読み込んだ状態のテキストを取得したいです
( とあったら、改行に変換して取得する)

どうすればいいでしょうか？

発生している問題

例えば下記のソースコードですと、DIVとBRの度に改行されるので、

ここで改行。
ここで改行。
ここで改行。
ここで改行。

という状態のテキストを取得したいです

該当のソースコード

<div class="test">
<DIV>ここで改行。</DIV><DIV>ここで改行。</DIV>ここで改行。<BR>ここで改行
</div>

試したこと

soup.find(class_="test")
→タグごと取得してしまう

soup.find(class_="test").text
→タグを消去して取得してしまう

行動規範の内容に同意します

回答3件

ベストアンサー

python
1from bs4 import BeautifulSoup
2
3html = """<div class="test">
4<DIV>ここで改行。</DIV><DIV>ここで改行。</DIV>ここで改行。<BR>ここで改行
5</div>"""
6
7soup = BeautifulSoup(html, 'html.parser')
8
9print(soup.text)

textやget_textだとソースと同じように改行されるため
結果も改行されずそのまま表示されます。

'\nここで改行。ここで改行。ここで改行。ここで改行\n'

python
1# brタグを改行に置換
2soup.br.replace_with("\n")
3print(soup.text)

'\nここで改行。ここで改行。ここで改行。\nここで改行\n'

ここで改行。ここで改行。ここで改行。
ここで改行

このままだと前後の改行が残ったままですのでstripで削除

python
1# stripで前後の改行を削除
2print(soup.text.strip())

追記

複数の場合

python
1for i in soup.select("br"):
2    i.replace_with("\n")
3print(soup.text)

投稿2019/08/18 14:53

編集2019/08/18 15:45

barobaro

総合スコア1286

ryo_0126

2019/08/18 15:38

ありがとうございます！ちなみに が複数あった場合、soup.br.replace_with("\n")だと最初のBRのみの置換になってしまいますか？

barobaro

2019/08/18 15:46 編集

上記の場合はそうなります。複数の場合はbrタグ探して置換するだけです。複数の場合を追記しました。

ryo_0126

2019/08/18 15:50

ありがとうございます！追記のパターンで一つ質問ですが、 soupのselect結果をiという変数に入れ替えて、その後変数iに対してreplace_withをして置換しているのですが、どうして最後の行でsoupの中身が書き換わっているのでしょうか？

barobaro

2019/08/18 16:04

詳しいことはわかりませんが findやselectはsoup全体から分かりやすいように一部を抜き出して表示しているだけなので書き換えるとsoupも書き換わるイメージです。

ryo_0126

2019/08/18 16:09

なるほど、ありがとうございました！無事に思ってた操作もできました。非常にわかりやすかったです。こんな遅い時間までありがとうございました。

行動規範の内容に同意します

word = find('div',class_='test')
words = word.find_all('div')
for word in words:
    print(word.text)

もっと簡潔に書けると思いますが、これで取得できると思います。

投稿2019/08/18 12:23

編集2019/08/18 12:27

atk_721

総合スコア62

ryo_0126

2019/08/18 14:16

ありがとうございます！大体イメージ通りです！！ちなみにこの場合ですと、 が無視されてしまうのですが、 find_all('div')のあとに を改行コードに置換するしかないでしょうか？

行動規範の内容に同意します

タグごと取得して、文字列置換でタグを改行コードに変換します。

投稿2019/08/18 12:02

otn

総合スコア86530

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.29%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

pythonのBeautifulSoupでbrタグを改行として認識する

前提・実現したいこと

発生している問題

該当のソースコード

試したこと

追記

複数の場合

関連した質問