beautifulsoupの条件抽出

Question

### 前提・実現したいこと下記のコードでリンク先画像を全て抽出しました。次に、要らない画像もあるのでURLの絞り込みをして必要なもののみダウンロードしたいです。 ### 該当のソースコード ```ここに言語名を入力 import requests from bs4 import BeautifulSoup import re from PIL import Image import io url='https://www.ragtag.jp/item/2007421S0299?via=pc311' response = requests.get(url) time.sleep(3) soup = BeautifulSoup(response.text, "html.parser") image_tags=soup.find_all('img') for i, image_tag in enumerate(image_tags): root_url='https://www.ragtag.jp/' img_url=root_url+image_tag['src'] img = Image.open(io.BytesIO(requests.get(img_url).content)) img.save(f'img/{i}.jpg') ``` ### 試したこと image_tags.find_all(src=re.compile("item/")) ↑このコードでは抽出できず。。 ### 補足情報（FW/ツールのバージョンなど）下記が必要なデータ一覧になります。

,

Accepted Answer

> image_tags.find_all(src=re.compile("item/"))
↑このコードでは抽出できず。。 

`image_tags`は、HTML要素じゃ無くて、HTML要素のリストのようなもの(`ResultSet`)ですので、`find_all`等は使えません。

最初から、`image_tags = soup.find_all("img",src=re.compile("item/"))`でいいでしょう。

Answer

既にURLの文字列は取得できているようですから、Beautiful Soupの機能を使わなくても文字列操作で必要なURLかどうか判定すればよいかと。

```python
image_tags=soup.find_all('img')

root_url='https://www.ragtag.jp/'
img_srcs = [image_tag['src'] for image_tag in image_tags]

for img_src in img_srcs:
    if img_src.startswith('/img/item/'):
        img_url = root_url + img_src
        # URLを使って画像をダウンロードし、保存
```

`str.startswith()`に関しては以下参照です。
もっと複雑な条件にしたいなら正規表現とかを使ってください。

[組み込み型 － Python 3.10.0b2 ドキュメント](https://docs.python.org/ja/3/library/stdtypes.html#str.startswith)