質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.35%
Beautiful Soup

Beautiful Soupは、Pythonのライブラリの一つ。スクレイピングに特化しています。HTMLデータの構文の解析を行うために、HTMLタグ/CSSのセレクタで抽出する部分を指定することが可能です。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

Q&A

1回答

758閲覧

BeautifulSopu4 滅茶苦茶なDOMでのテキスト取得の仕方が分かりません

退会済みユーザー

退会済みユーザー

総合スコア0

Beautiful Soup

Beautiful Soupは、Pythonのライブラリの一つ。スクレイピングに特化しています。HTMLデータの構文の解析を行うために、HTMLタグ/CSSのセレクタで抽出する部分を指定することが可能です。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

0グッド

0クリップ

投稿2021/05/28 19:45

実現したいこと

DOMが結構滅茶苦茶なサイトのテキストをBeautiful Soupで取得したいのですが、どういう風にすればいいのかが皆目見当もつきません。
知恵をお貸しいただければと思います。

対象のDOM

html

1<span class="class名"> 2 <img src="url"/> 3 取得したいテキスト 4 <b> 5 <span class="class名"> 6 テキスト 7 </span> 8 </b> 9 <img class="クラス名" src="url" title="代替テキスト"/> 10 取得したいテキスト 11 <b> 12 <span class="クラス名"> 13   テキスト 14 </span> 15 </b> 16 <img class="クラス名" src="URL名" title="代替テキスト"/> 17 取得したいテキスト 18 <img class="クラス名" src="url" title="代替テキスト"/> 19 取得したいテキスト 20 <img class="クラス名" src="url" title="代替テキスト"/> 21 <b> 22 <span class="クラス名"> 23 テキスト 24 </span> 25 </b> 26 <img class="クラス名" src="url" title="代替テキスト"/> 27</span>

DOMはpythonでの出力結果ではなく、DOMが分かりやすいように私が編集しています

###前提・試した事
パーサは以下の2種類を試しましたがDOMの内容は変わらず滅茶苦茶なままでした。
1.Python’s html.parser
2.html5lib

また、Beautiful Soup 4.2.0 Doc. 日本語訳 (2013-11-19最終更新) も読んでおりますが実現したい事を出来る機能も見当たりませんでした。

##バージョン

python : 3.9.5
Beautiful Soup : 4.9.3

###現状
取得したいテキスト前に「/>」、後には「<」が必ずあるため、
正規表現の様な形で取得できるのではないか?と言う考えがありますが、前項でも話したように、それを実現できる機能が見当たらず途方にくれている状態です。

ご回答宜しくお願いします。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

otn

2021/05/29 06:36

「滅茶苦茶」とはどの部分のことを言っていますか?ぱっとみちゃんとしてそうですが。
guest

回答1

0

img要素の次にあるテキストコンテントを取得したい、という要件であるという前提で回答します。

手法

find_allでimg要素が全て取得できます。
そして、指定の要素の「次の要素」を取得する next_element を使うと、img要素と次に出てくるタグの間にあるテキストが取得できます。

ドキュメントにもちゃんと記載されています。
http://kondou.com/BS4/#next-element-previous-element

検証

質問文のHTMLコードが html に入っているとして、

python

1from bs4 import BeautifulSoup 2soup = BeautifulSoup(html, "html.parser") 3for e in soup.find_all("img"): 4 print(e.next_element.strip())

結果

取得したいテキスト 取得したいテキスト 取得したいテキスト 取得したいテキスト

投稿2021/05/28 21:39

hope_mucci

総合スコア4447

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

まだベストアンサーが選ばれていません

会員登録して回答してみよう

アカウントをお持ちの方は

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.35%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問