【Python3】BeautifulSoupで、入れ子のタグから情報を得る方法
解決済
回答 2
投稿
- 評価
- クリップ 1
- VIEW 10K+
※非エンジニア・Python初心者です。
質問の仕方が悪い場合、ご指摘いただけますと幸いです。
前提・実現したいこと
現在、htmlの中から特定の情報を取り出すプログラムを書こうと思っています。
取り出したい情報は、htmlソース中、全ての<a>の中にある<img>です。
例:(すごいざっくりですが)
<table>
<body>
<tr>
<td>
<a href="#"><img src="A" alt=""></a>
<a href="#"><img src="B" alt=""></a>
<a href="#"><img src="C" alt=""></a>
</td>
</tr>
</body>
</table>
というhtmlの場合において、取り出したいのは、
<img src="A" alt="">
<img src="B" alt="">
<img src="C" alt="">
ということになります。
入れ子のタグの中身を抽出する方法がわからなかったので、
こちらのサイトを参考にしつつ
BeautifulSoupを用いて下記のようなコードを書きました。(URLはサンプルです。)
該当のソースコード
import urllib.request
from bs4 import BeautifulSoup
html = urllib.request.urlopen("http://www.city.kashiwa.lg.jp/")
soup = BeautifulSoup(html, "html.parser")
urllist = soup.a.find_all("img")
print(urllist)
出力結果。一番最初の<a>の中の情報しか取れなかった。
[<img alt="本文へ" src="/share/imgs/transparent.png/>"]
「aの中で入れ子になっている全てのimgを取得すること」は上記内容で解決でき、大変満足なのですが、
そもそも<a>自体がhtmlに複数ある場合はどう書いたら全部取り出せるのでしょう。
試しにsoup.find_all("a").find_all("img")
という無謀なことも書いてみましたが、当然エラーになりました。
が、思い描いているイメージとしてはそんな感じです。
この場合、どのようなコードを書いたらよいのでしょうか。どなたかご教示いただけませんか?
-
気になる質問をクリップする
クリップした質問は、後からいつでもマイページで確認できます。
またクリップした質問に回答があった際、通知やメールを受け取ることができます。
クリップを取り消します
-
良い質問の評価を上げる
以下のような質問は評価を上げましょう
- 質問内容が明確
- 自分も答えを知りたい
- 質問者以外のユーザにも役立つ
評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。
質問の評価を上げたことを取り消します
-
評価を下げられる数の上限に達しました
評価を下げることができません
- 1日5回まで評価を下げられます
- 1日に1ユーザに対して2回まで評価を下げられます
質問の評価を下げる
teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。
- プログラミングに関係のない質問
- やってほしいことだけを記載した丸投げの質問
- 問題・課題が含まれていない質問
- 意図的に内容が抹消された質問
- 過去に投稿した質問と同じ内容の質問
- 広告と受け取られるような投稿
評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。
質問の評価を下げたことを取り消します
この機能は開放されていません
評価を下げる条件を満たしてません
質問の評価を下げる機能の利用条件
この機能を利用するためには、以下の事項を行う必要があります。
- 質問回答など一定の行動
-
メールアドレスの認証
メールアドレスの認証
-
質問評価に関するヘルプページの閲覧
質問評価に関するヘルプページの閲覧
checkベストアンサー
+3
CSSセレクタで
soup.select('a img')
とするか
[i for a in soup.find_all('a') for i in a.find_all('img')]
とするか。
投稿
-
回答の評価を上げる
以下のような回答は評価を上げましょう
- 正しい回答
- わかりやすい回答
- ためになる回答
評価が高い回答ほどページの上位に表示されます。
-
回答の評価を下げる
下記のような回答は推奨されていません。
- 間違っている回答
- 質問の回答になっていない投稿
- スパムや攻撃的な表現を用いた投稿
評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。
0
soup.aはsoup.find("a")と同じで、先頭の一つのaタグしか取り込まないと、参考にされたサイトに書いてありますね。
投稿
-
回答の評価を上げる
以下のような回答は評価を上げましょう
- 正しい回答
- わかりやすい回答
- ためになる回答
評価が高い回答ほどページの上位に表示されます。
-
回答の評価を下げる
下記のような回答は推奨されていません。
- 間違っている回答
- 質問の回答になっていない投稿
- スパムや攻撃的な表現を用いた投稿
評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。
15分調べてもわからないことは、teratailで質問しよう!
- ただいまの回答率 88.32%
- 質問をまとめることで、思考を整理して素早く解決
- テンプレート機能で、簡単に質問をまとめられる
2018/02/22 21:51
大変助かりました。