### 実現したいこと Pythonを使って以下のURLにあるgifファイルのURLを取得したいと考えています。 "https://www.sciencedirect.com/book/9780124157590/haschek-and-rousseauxs-handbook-of-toxicologic-pathology" 検証ツールで調べると、gifファイルは以下のURLであることが分かります。 "https://ars.els-cdn.com/content/image/3-s2.0-C20101678509-cov200h.gif" Beautifulsoupで簡単に取得できるものと思ったのですが、全く上手くいきません。 ### 試したコード ```Python import requests from bs4 import BeautifulSoup page_url = "https://www.sciencedirect.com/book/9780124157590/haschek-and-rousseauxs-handbook-of-toxicologic-pathology" r = requests.get(page_url) soup = BeautifulSoup(r.content, 'lxml') img_tags = soup.find_all("img") img_urls = [] for img_tag in img_tags: url = img_tag.get("src") if url != None: img_urls.append(url) print(img_urls) ``` ### 結果長い文字列が取得され、gifファイルのURLは取得できませんでした。よろしくお願いいたします。

Pythonを使ってウェブページ上のgifファイルのURLを取得したい

実現したいこと

Pythonを使って以下のURLにあるgifファイルのURLを取得したいと考えています。
"https://www.sciencedirect.com/book/9780124157590/haschek-and-rousseauxs-handbook-of-toxicologic-pathology"
検証ツールで調べると、gifファイルは以下のURLであることが分かります。
"https://ars.els-cdn.com/content/image/3-s2.0-C20101678509-cov200h.gif"
Beautifulsoupで簡単に取得できるものと思ったのですが、全く上手くいきません。

試したコード

Python
1import requests
2from bs4 import BeautifulSoup
3
4page_url = "https://www.sciencedirect.com/book/9780124157590/haschek-and-rousseauxs-handbook-of-toxicologic-pathology"
5r = requests.get(page_url)
6soup = BeautifulSoup(r.content, 'lxml')
7
8img_tags = soup.find_all("img")
9img_urls = []
10
11for img_tag in img_tags:
12  url = img_tag.get("src")
13  if url != None:
14    img_urls.append(url)
15print(img_urls)

結果

長い文字列が取得され、gifファイルのURLは取得できませんでした。

よろしくお願いいたします。

行動規範の内容に同意します

回答1件

ベストアンサー

User-Agent を設定する必要がある様です。

python
1import requests
2from bs4 import BeautifulSoup
3
4page_url = "https://www.sciencedirect.com/book/9780124157590/haschek-and-rousseauxs-handbook-of-toxicologic-pathology"
5headers = {
6  "User-Agent": "Mozilla/5.0 (X11; Linux x86_64; rv:61.0) Gecko/20100101 Firefox/61.0",
7}
8
9r = requests.get(page_url, headers=headers)
10soup = BeautifulSoup(r.content, 'lxml')
11img_tag = soup.select_one('div.book-cover > img')
12img_url = img_tag['src']
13print(img_url)
14
15#
16https://ars.els-cdn.com/content/image/3-s2.0-C20101678509-cov200h.gif