pythonのスクレイピングで必要なもののみ取得したい。

前提

pythonのスクレイピングで
集まれどうぶつの森攻略サイトから家具の名前と画像URLを取得作っています
ほしい画像URL・画像名前以外のほかの不必要なURLなどを取得してしまう
サイトURL　https://game8.jp/atsumare-doubutsunomori/326140#hl_2

わかる方よろしくおねがいします！！

実現したいこと

ほしい画像URL・画像名前を取得したい

発生している問題

そのサイトにある広告などを取得してしまう

該当のソースコード

python
1page_url = "https://game8.jp/atsumare-doubutsunomori/326140"
2r = requests.get(page_url)
3
4soup = BeautifulSoup(r.text, features="html.parser")
5
6furniture_names = soup.find_all("img",attrs={"data-loaded":"true"})
7
8
9furniture_lists = []
10
11for furniture_name in furniture_names:
12    name = furniture_name.get("alt")
13    furniture_lists.append(name)
14    print(name)

試したこと

・タグ名の変更
・srcからdata-srcへの変更

補足情報（FW/ツールのバージョンなど）

python 3.10

BeautifulSoup4

y_waiwai

2022/08/24 04:07

ほしい画像URL、ってのはどういう条件のものなんでしょう。そこらへんの定義がわからないと答えようがありません

ki-ma

2022/08/24 04:14

返信ありがとうございます。ほしい画像URLは家具の画像です！わかりにくくてすいません。。。

Matsumon0104

2022/08/24 04:24 編集

y_waiwaiさんがおっしゃている「条件」というのは、例えば「家具の画像には必ず「name="kagu_XX"」のような属性情報が登録されている」といったものかと思います。「家具の画像」だけでは、プログラム上どこを改善したらよいかのアドバイスもできないかと思います。

ki-ma

2022/08/24 04:28

なるほど。。条件はimgのaltタグにある○○の画像の部分を取得したいです。

otn

2022/08/24 05:03

> 条件はimgのaltタグにある○○の画像の部分を取得したいです。「alt属性（altタグではない）に、"画像" という文字列が含まれる物」という意味ですか？

ki-ma

2022/08/24 05:17

そうゆうことです！説明足りなくてすいません。。

行動規範の内容に同意します

回答1件

ベストアンサー

python
1import requests
2from bs4 import BeautifulSoup
3from pprint import pprint
4
5page_url = "https://game8.jp/atsumare-doubutsunomori/326140"
6r = requests.get(page_url)
7soup = BeautifulSoup(r.text, features="html.parser")
8furnitures = soup.select('h3 + table.a-table td')
9
10furniture_lists = []
11for f in furnitures:
12    url = f.select_one('img.a-img')
13    if url is not None:
14        url = url.get('data-src', None)
15    if url is None: continue
16    furniture_lists.append({'name': f.text.strip(), 'url': url})
17
18pprint(furniture_lists, sort_dicts=False)
19
20#
21[{'name': 'アーケードゲーム(FTG)',
22  'url': 'https://img.game8.jp/4948840/014054a4808ecdd0e80f50d233d38add.png/show'},
23 {'name': 'アーケードゲーム(STG)',
24  'url': 'https://img.game8.jp/4948847/09aba4b346d30bd52b45150258542633.png/show'},
25 {'name': 'アーケードゲーム(TBL)',
26  'url': 'https://img.game8.jp/4948827/2d21950d6f2222e554414c2edc223aa9.png/show'},
27 {'name': 'アームのフロアランプ',
28  'url': 'https://img.game8.jp/4948805/0c07f80166b0abaccc40a2210b03f49b.png/show'},
29 {'name': 'アイランドキッチン',
30  'url': 'https://img.game8.jp/6821080/14a40c2d75c214d651a8736d52993e83.png/show'},
31                          :
32                          :
33