前提
pythonのスクレイピングで
集まれどうぶつの森攻略サイトから家具の名前と画像URLを取得作っています
ほしい画像URL・画像名前以外のほかの不必要なURLなどを取得してしまう
サイトURL https://game8.jp/atsumare-doubutsunomori/326140#hl_2
わかる方よろしくおねがいします!!
実現したいこと
ほしい画像URL・画像名前を取得したい
発生している問題
そのサイトにある広告などを取得してしまう
該当のソースコード
python
1page_url = "https://game8.jp/atsumare-doubutsunomori/326140" 2r = requests.get(page_url) 3 4soup = BeautifulSoup(r.text, features="html.parser") 5 6furniture_names = soup.find_all("img",attrs={"data-loaded":"true"}) 7 8 9furniture_lists = [] 10 11for furniture_name in furniture_names: 12 name = furniture_name.get("alt") 13 furniture_lists.append(name) 14 print(name)
試したこと
・タグ名の変更
・srcからdata-srcへの変更
補足情報(FW/ツールのバージョンなど)
python 3.10
BeautifulSoup4
ほしい画像URL、ってのはどういう条件のものなんでしょう。そこらへんの定義がわからないと答えようがありません
返信ありがとうございます。
ほしい画像URLは家具の画像です!
わかりにくくてすいません。。。
y_waiwaiさんがおっしゃている「条件」というのは、例えば「家具の画像には必ず「name="kagu_XX"」のような属性情報が登録されている」といったものかと思います。
「家具の画像」だけでは、プログラム上どこを改善したらよいかのアドバイスもできないかと思います。
なるほど。。
条件はimgのaltタグにある○○の画像の部分を取得したいです。
> 条件はimgのaltタグにある○○の画像の部分を取得したいです。
「alt属性(altタグではない)に、"画像" という文字列が含まれる物」という意味ですか?
そうゆうことです!
説明足りなくてすいません。。
回答1件
あなたの回答
tips
プレビュー