質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.50%
Beautiful Soup

Beautiful Soupは、Pythonのライブラリの一つ。スクレイピングに特化しています。HTMLデータの構文の解析を行うために、HTMLタグ/CSSのセレクタで抽出する部分を指定することが可能です。

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

HTML

HTMLとは、ウェブ上の文書を記述・作成するためのマークアップ言語のことです。文章の中に記述することで、文書の論理構造などを設定することができます。ハイパーリンクを設定できるハイパーテキストであり、画像・リスト・表などのデータファイルをリンクする情報に結びつけて情報を整理します。現在あるネットワーク上のほとんどのウェブページはHTMLで作成されています。

Q&A

解決済

1回答

1141閲覧

Beautiful Soupでsoup.find_allで検索した要素の上の要素を取り出したい

Aki1000

総合スコア78

Beautiful Soup

Beautiful Soupは、Pythonのライブラリの一つ。スクレイピングに特化しています。HTMLデータの構文の解析を行うために、HTMLタグ/CSSのセレクタで抽出する部分を指定することが可能です。

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

HTML

HTMLとは、ウェブ上の文書を記述・作成するためのマークアップ言語のことです。文章の中に記述することで、文書の論理構造などを設定することができます。ハイパーリンクを設定できるハイパーテキストであり、画像・リスト・表などのデータファイルをリンクする情報に結びつけて情報を整理します。現在あるネットワーク上のほとんどのウェブページはHTMLで作成されています。

0グッド

0クリップ

投稿2020/11/16 14:14

編集2020/11/16 20:19

html

1 2 <tr> 3 <td class"a"> 4 <img src="aaaa.gif"> 5 </td> 6 <td class"a"> 7 aaaa 8 </td> 9 <td class"a"> 10 bbbb 11 </td> 12 <td class"a"> 13 <a href="xxxxxxxxxx"> 14 <img src="bbbb.gif"> 15 </a> 16 </td> 17 </tr> 18 19 <tr> 20 <td class"a"> 21 <img src="aaaa.gif"> 22 </td> 23 <td class"a"> 24 cccc 25 </td> 26 <td class"a"> 27 dddd 28 </td> 29 <td class"a"> 30 <a href="zzzzzzzzz"> 31 <img src="bbbb.gif"> 32 </a> 33 </td> 34 </tr> 35 36 37

Beautifulsoupの勉強中です。
html = driver.page_source.encode('utf-8')
soup = BeautifulSoup(html, "html.parser")

としてパースし、
こういうソースに対して、bbbb.gifを含む**<tr> /<tr>に囲まれた部分を取り出したい**です。

elements = soup.find_all('img', src=re.compile('bbbb.gif'))

とすると、<img src="bbbb.gif">は取り出せるのですが、
その上の要素(親要素?)<tr> /<tr>に囲まれた部分を取り出すには、どうしたら良いでしょうか?

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

ベストアンサー

.parentで親ノードです。

imgの親がaで、その親がtd、さらに親がtrなので、

Python

1img = soup.find('img', src='bbbb.gif') 2tr = img.parent.parent.parent

もしくは、find_parentを使って、

Python

1img = soup.find('img', src='bbbb.gif') 2tr = img.find_parent('tr')

find_allを使う理由が無いのでfindにしています。

なお、お書きのHTMLが出鱈目です。<tr>の終了タグは/<tr>じゃなくて</tr>です。他も同様。さらに<a>の終了タグが無い。

投稿2020/11/16 16:52

otn

総合スコア84423

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

Aki1000

2020/11/16 17:17

ありがとうございます。 find_allにした理由は、この私の作った例文のhtmlでは読めないですが、ソースでは同じようなtrで囲まれた部分(bbbb.gifも存在する)が複数あるからなのです……。 なので、find_allでやりたいです。 htmlの終了、了解しました。修正します。
otn

2020/11/16 19:03

なるほど。 では、複数のものを入れる変数名は複数と分かる名前にしましょう。
Aki1000

2020/11/16 20:25 編集

findなら動くのですが、 img = soup.find_all('img', src='bbbb.gif') としたとき、 tr = img.parent.parent.parent や tr = img.find_parent('tr')とすると、エラーが出てしまいます。 find_allでエラーが出ないようにするにはどうすればいいんでしょう?
otn

2020/11/16 23:07

findはノードを返しますが、find_allはノードのリストを返します。 区別が付いてない??
Aki1000

2020/11/17 00:36

tr = img[0].parent.parent.parent あるいは tr = img[0].find_parent('tr') のようにしたら、動きました。ありがとうございます。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.50%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問