BeautifulSopu4 滅茶苦茶なDOMでのテキスト取得の仕方が分かりません

実現したいこと

DOMが結構滅茶苦茶なサイトのテキストをBeautiful Soupで取得したいのですが、どういう風にすればいいのかが皆目見当もつきません。
知恵をお貸しいただければと思います。

対象のDOM

html
1<span class="class名">
2  <img src="url"/>
3  取得したいテキスト
4  <b>
5    <span class="class名">
6      テキスト
7    </span>
8  </b>
9  <img class="クラス名" src="url" title="代替テキスト"/>
10  取得したいテキスト
11  <b>
12    <span class="クラス名">
13　　  テキスト
14    </span>
15  </b>
16  <img class="クラス名" src="URL名" title="代替テキスト"/>
17  取得したいテキスト
18  <img class="クラス名" src="url" title="代替テキスト"/>
19  取得したいテキスト
20  <img class="クラス名" src="url" title="代替テキスト"/>
21  <b>
22    <span class="クラス名">
23      テキスト
24    </span>
25  </b>
26  <img class="クラス名" src="url" title="代替テキスト"/>
27</span>

DOMはpythonでの出力結果ではなく、DOMが分かりやすいように私が編集しています

###前提・試した事
パーサは以下の２種類を試しましたがDOMの内容は変わらず滅茶苦茶なままでした。
1.Python’s html.parser
2.html5lib

また、Beautiful Soup 4.2.0 Doc. 日本語訳 (2013-11-19最終更新) も読んでおりますが実現したい事を出来る機能も見当たりませんでした。

##バージョン

python : 3.9.5
Beautiful Soup : 4.9.3

###現状
取得したいテキスト前に「/>」、後には「<」が必ずあるため、
正規表現の様な形で取得できるのではないか？と言う考えがありますが、前項でも話したように、それを実現できる機能が見当たらず途方にくれている状態です。

ご回答宜しくお願いします。

otn

2021/05/29 06:36

「滅茶苦茶」とはどの部分のことを言っていますか？ぱっとみちゃんとしてそうですが。

行動規範の内容に同意します

回答1件

img要素の次にあるテキストコンテントを取得したい、という要件であるという前提で回答します。

手法

find_allでimg要素が全て取得できます。
そして、指定の要素の「次の要素」を取得する next_element を使うと、img要素と次に出てくるタグの間にあるテキストが取得できます。

ドキュメントにもちゃんと記載されています。
http://kondou.com/BS4/#next-element-previous-element

検証

質問文のHTMLコードが html に入っているとして、

python
1from bs4 import BeautifulSoup
2soup = BeautifulSoup(html, "html.parser")
3for e in soup.find_all("img"):
4  print(e.next_element.strip())

結果

取得したいテキスト
取得したいテキスト
取得したいテキスト
取得したいテキスト

投稿2021/05/28 21:39

hope_mucci

総合スコア4447

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

まだベストアンサーが選ばれていません

会員登録して回答してみよう

アカウントをお持ちの方は

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.35%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう！

BeautifulSopu4 滅茶苦茶なDOMでのテキスト取得の仕方が分かりません

実現したいこと

対象のDOM

手法

検証

関連した質問