質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.50%
URL

URL(ユニフォームリソースロケータ)とは、インターネット上のリソース(Webページや電子メールの宛先等)を特定するための形式的な記号の並びの事を言う。

ダウンロード

リモートシステムからローカルシステムへとデータを受信する事、もしくはそのようなデータ転送を行う事をダウンロードと呼びます。

Q&A

解決済

2回答

474閲覧

beautifulsoupの条件抽出

fear

総合スコア3

URL

URL(ユニフォームリソースロケータ)とは、インターネット上のリソース(Webページや電子メールの宛先等)を特定するための形式的な記号の並びの事を言う。

ダウンロード

リモートシステムからローカルシステムへとデータを受信する事、もしくはそのようなデータ転送を行う事をダウンロードと呼びます。

0グッド

0クリップ

投稿2021/10/17 05:46

前提・実現したいこと

下記のコードでリンク先画像を全て抽出しました。
次に、要らない画像もあるのでURLの絞り込みをして必要なもののみダウンロードしたいです。

該当のソースコード

import requests from bs4 import BeautifulSoup import re from PIL import Image import io url='https://www.ragtag.jp/item/2007421S0299?via=pc311' response = requests.get(url) time.sleep(3) soup = BeautifulSoup(response.text, "html.parser") image_tags=soup.find_all('img') for i, image_tag in enumerate(image_tags): root_url='https://www.ragtag.jp/' img_url=root_url+image_tag['src'] img = Image.open(io.BytesIO(requests.get(img_url).content)) img.save(f'img/{i}.jpg')

試したこと

image_tags.find_all(src=re.compile("item/"))

↑このコードでは抽出できず。。

補足情報(FW/ツールのバージョンなど)

下記が必要なデータ一覧になります。

<img jqimg="/img/item/20074/2007421S0299/2007421S0299_x1_a001.jpg" src="/img/item/20074/2007421S0299/2007421S0299_m1_a001.jpg"/>,
<img jqimg="/img/item/20074/2007421S0299/2007421S0299_x1_a002.jpg" src="/img/item/20074/2007421S0299/2007421S0299_m1_a002.jpg"/>,
<img jqimg="/img/item/20074/2007421S0299/2007421S0299_x1_a003.jpg" src="/img/item/20074/2007421S0299/2007421S0299_m1_a003.jpg"/>,
<img jqimg="/img/item/20074/2007421S0299/2007421S0299_x1_a004.jpg" src="/img/item/20074/2007421S0299/2007421S0299_m1_a004.jpg"/>,
<img jqimg="/img/item/20074/2007421S0299/2007421S0299_x1_a005.jpg" src="/img/item/20074/2007421S0299/2007421S0299_m1_a005.jpg"/>,
<img jqimg="/img/item/20074/2007421S0299/2007421S0299_x1_a006.jpg" src="/img/item/20074/2007421S0299/2007421S0299_m1_a006.jpg"/>,

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答2

0

ベストアンサー

image_tags.find_all(src=re.compile("item/"))

↑このコードでは抽出できず。。

image_tagsは、HTML要素じゃ無くて、HTML要素のリストのようなもの(ResultSet)ですので、find_all等は使えません。

最初から、image_tags = soup.find_all("img",src=re.compile("item/"))でいいでしょう。

投稿2021/10/17 07:36

otn

総合スコア84423

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

fear

2021/10/18 01:25

なるほど。何にでもfind_allを使えば良いと思っていましたので、大変勉強になりました。 これから精進していきたいと思います。教えて頂き有難うございました。
guest

0

既にURLの文字列は取得できているようですから、Beautiful Soupの機能を使わなくても文字列操作で必要なURLかどうか判定すればよいかと。

python

1image_tags=soup.find_all('img') 2 3root_url='https://www.ragtag.jp/' 4img_srcs = [image_tag['src'] for image_tag in image_tags] 5 6for img_src in img_srcs: 7 if img_src.startswith('/img/item/'): 8 img_url = root_url + img_src 9 # URLを使って画像をダウンロードし、保存

str.startswith()に関しては以下参照です。
もっと複雑な条件にしたいなら正規表現とかを使ってください。

組み込み型 - Python 3.10.0b2 ドキュメント

投稿2021/10/17 06:57

fj68

総合スコア752

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.50%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問