python スクレイピングで画像を取得したい（複雑なhtml構造）

実施したいこと

スクレイピングで複雑なhtml構造のサイトから画像を取得したい

取得したいサイトのhtml構造

試したこと

python
1
2#画像取得
3for i in range(7):
4    for elem in browser.find_elements_by_xpath('xxxxxxxxx/a/img'.format(i)):
5        try:
6                imgs = elem.get_attribute('src')
7                image = io.BytesIO(request.urlopen(imgs).read())
8                img = Image.open(image)
9                img = img.resize((560, 250))
10                img.save(xxxx{}.jpg'.format(i))
11        except OSError:
12                pass

これまでの構造とは方法とは異なり、取得することができません。
アドバイスのほど、よろしくお願いいたします。

行動規範の内容に同意します

回答2件

ベストアンサー

python - Extracting url from style: background-url: with beautifulsoup and without regex? - Stack Overflow
Stack Overflowに同様の質問がありました。質問のにあるHTMLに合わせると以下のようになります。

python
1from bs4 import BeautifulSoup
2import cssutils, re
3
4soup = BeautifulSoup('<span class="image" style="background-image: url(/xxxx/xxxxx/xxx/xxx/img/xxxx/xxx/xxxx.jpg)"></span>', 'lxml')
5
6# 正規表現なし
7style = cssutils.parseStyle(soup.span['style'])
8url = style['background-image'].replace('url(', '').replace(')', '')
9print(url)
10# /xxxx/xxxxx/xxx/xxx/img/xxxx/xxx/xxxx.jpg
11
12# 正規表現あり
13print(re.findall(r'((.*?))', soup.span['style'])[0])
14# /xxxx/xxxxx/xxx/xxx/img/xxxx/xxx/xxxx.jpg

cssutilsを使うことでcssを解析しているようです。ただそれでもurl部分のみ取り出すということはできないようで、最終的にはいらない部分を空白で置換してurlのみを取り出しています。

Stack Overflowの質問者さんは正規表現を使わない方法を探していたようですが、正規表現を使った方が楽そうですね。

投稿2019/08/08 08:32

編集2019/08/08 08:33

mistn

総合スコア1191

退会済みユーザー

2019/08/08 08:55

mistn様丁寧なご回答誠にありがとうございます。取得できない理由が理解できました。 1つの画像urlだけでなく、複数の取得を行いたい場合記載いただきました内容をどう変更すればよいでしょうか？何卒宜しくお願い致します。下記、取得したいデータ構造です。 -- soup = BeautifulSoup('<span class="image" style="background-image: url(/xxxx/xxxxx/xxx/xxx/img/xxxx/←ここまではどのurlも同じ構造。以降は別　xxx/xxxx.jpg)"></span>', 'lxml')

mistn

2019/08/10 06:56

> ←ここまではどのurlも同じ構造。以降は別の部分がよくわからないのですがどういう意味ですか？

退会済みユーザー

2019/08/13 02:13

mistn様いつもありがとうございます。分かりづらく、大変失礼いたしました。以降はjpg名が異なるという意味です。依然として、解決できていない状況です。何卒宜しくお願い致します。

mistn

2019/08/13 02:30

style="background-image: url(/xxxx/xxxxx/xxx/xxx/img/xxxx/xxx/xxxx.jpg), url(/xxxx/xxxxx/xxx/xxx/img/xxxx/xxx/yyy.jpg)" のようにいくつかurlがあるという認識であってますか？であれば re.findall(r'((.*?))', soup.span['style']) だけですべてのurlがリストで取得できます。

退会済みユーザー

2019/08/13 03:16

mistn様ご回答いただき誠にありがとうございます。下記、試したコードと、html構造です。何度も訂正してしまい、申し訳ございません。何卒宜しくお願い致します。 - 試したコード（発生エラー） from bs4 import BeautifulSoup import cssutils, re import urllib.request html = urllib.request.urlopen('https://www.xxxxxx.com/').read() soup = BeautifulSoup(html, "html.parser") print(re.findall(r'((.*?))', soup.span['style'])) KeyError: 'style' - html構造 <div class = 'item'> <span class="image" style="background-image: url(/xxxx/xxxxx/xxx/xxx/img/xxxx/xxx/xxxx.jpg)"></span> <div class = 'item'> <span class="image" style="background-image: url(/xxxx/xxxxx/xxx/xxx/img/xxxx/xxx/yyyy.jpg)"></span>

mistn

2019/08/13 04:12

htmlの構造に合わせて soup.span['style'] の部分は変えてください。 html全体の構造が分からないため説明はできません。「beautifulsoup 要素取得」などで調べてみてください。

行動規範の内容に同意します