※非エンジニア・Python初心者です。質問の仕方が悪い場合、ご指摘いただけますと幸いです。 ### 前提・実現したいこと現在、htmlの中から特定の情報を取り出すプログラムを書こうと思っています。取り出したい情報は、**htmlソース中、全てのの中にある **です。例：（すごいざっくりですが） ```html ``` というhtmlの場合において、取り出したいのは、ということになります。 *** 入れ子のタグの中身を抽出する方法がわからなかったので、 [こちらのサイト](https://qiita.com/itkr/items/513318a9b5b92bd56185)を参考にしつつ BeautifulSoupを用いて下記のようなコードを書きました。（URLはサンプルです。） ### 該当のソースコード ```Python import urllib.request from bs4 import BeautifulSoup html = urllib.request.urlopen("http://www.city.kashiwa.lg.jp/") soup = BeautifulSoup(html, "html.parser") urllist = soup.a.find_all("img") print(urllist) ``` ### 出力結果。一番最初のの中の情報しか取れなかった。 ``` [ "] ``` 「aの中で入れ子になっている全てのimgを取得すること」は上記内容で解決でき、大変満足なのですが、そもそも自体がhtmlに複数ある場合はどう書いたら全部取り出せるのでしょう。試しにsoup.find_all("a").find_all("img") という無謀なことも書いてみましたが、当然エラーになりました。が、思い描いているイメージとしてはそんな感じです。この場合、どのようなコードを書いたらよいのでしょうか。どなたかご教示いただけませんか？

CSSセレクタで ```Python soup.select('a img') ``` とするか ```Python [i for a in soup.find_all('a') for i in a.find_all('img')] ``` とするか。

【Python3】BeautifulSoupで、入れ子のタグから情報を得る方法

※非エンジニア・Python初心者です。
質問の仕方が悪い場合、ご指摘いただけますと幸いです。

前提・実現したいこと

現在、htmlの中から特定の情報を取り出すプログラムを書こうと思っています。
取り出したい情報は、**htmlソース中、全ての<a>の中にある<img>**です。

例：（すごいざっくりですが）

html
1<table>
2 <body>
3  <tr>
4    <td>
5      <a href="#"><img src="A" alt=""></a>
6      <a href="#"><img src="B" alt=""></a>
7      <a href="#"><img src="C" alt=""></a>
8    </td>
9   </tr>
10 </body>
11</table>

というhtmlの場合において、取り出したいのは、
<img src="A" alt="">
<img src="B" alt="">
<img src="C" alt="">
ということになります。

入れ子のタグの中身を抽出する方法がわからなかったので、
こちらのサイトを参考にしつつ
BeautifulSoupを用いて下記のようなコードを書きました。（URLはサンプルです。）

該当のソースコード

Python
1import urllib.request
2from bs4 import BeautifulSoup
3
4html = urllib.request.urlopen("http://www.city.kashiwa.lg.jp/")
5soup = BeautifulSoup(html, "html.parser")
6
7urllist = soup.a.find_all("img")
8print(urllist)

出力結果。一番最初の<a>の中の情報しか取れなかった。

[<img alt="本文へ" src="/share/imgs/transparent.png/>"]

「aの中で入れ子になっている全てのimgを取得すること」は上記内容で解決でき、大変満足なのですが、
そもそも<a>自体がhtmlに複数ある場合はどう書いたら全部取り出せるのでしょう。

試しにsoup.find_all("a").find_all("img")
という無謀なことも書いてみましたが、当然エラーになりました。
が、思い描いているイメージとしてはそんな感じです。

この場合、どのようなコードを書いたらよいのでしょうか。どなたかご教示いただけませんか？

行動規範の内容に同意します

回答2件

ベストアンサー

CSSセレクタで

Python
1soup.select('a img')

とするか

Python
1[i for a in soup.find_all('a') for i in a.find_all('img')]

とするか。

投稿2018/02/22 00:16

quickquip

総合スコア11357

退会済みユーザー

2018/02/22 12:51

本当にありがとうございます！大変助かりました。

行動規範の内容に同意します

soup.aはsoup.find("a")と同じで、先頭の一つのaタグしか取り込まないと、参考にされたサイトに書いてありますね。

投稿2018/02/21 18:24

KojiDoi

総合スコア13727

退会済みユーザー

2018/02/21 22:56

コメントありがとうございます！！！そうなんですよね…情けないことに、実行してみるまで気づかなくて。。先頭タグだけでなく全てを取り込む(find_all)して、なおかつ入れ子のタグも全て取り込むような書き方ができないものかと調べてみているのですが、なかなか例がないようで…。書き方次第で何かしら状況変わるのかな？と思ったのですが、そもそもBeautifulSoupでは対応してくれないのでしょうか…？

行動規範の内容に同意します

あなたの回答