Python
1import requests
2from selenium import webdriver
3from selenium.webdriver.common.by import By
4from selenium.webdriver.chrome.service import Service
5from selenium.webdriver.chrome.options import Options
6from webdriver_manager.chrome import ChromeDriverManager
7from bs4 import BeautifulSoup
8import os
9from time import sleep
10
11options = Options()
12options = webdriver.ChromeOptions()
13options.add_argument("--headless")
14# browser = webdriver.Chrome(ChromeDriverManager().install(),options=options)
15browser = webdriver.Chrome(service=Service(ChromeDriverManager().install()))
16url = "https://www.google.co.jp/imghp?hl=ja"
17browser.get(url)
18
19# kw_search = browser.find_elements_by_css_selector("#sbtc > div > div.a4bIc > input")
20kw_search = browser.find_element(By.CSS_SELECTOR,'input')
21actor_name = input("検索したい画像の名前やキーワードを入力してください")
22# actor_name_number = input("次に検索したい画像の枚数を入力してください")
23
24kw_search.send_keys(str(actor_name))
25
26from selenium.webdriver.common.keys import Keys
27kw_search.send_keys(Keys.ENTER)
28
29cur_url = browser.current_url
30
31res = requests.get(cur_url)
32soup = BeautifulSoup(res.text,"html.parser")
33
34# img_tags = soup.find_all("img,limit = int(actor_name_number)")
35img_tags = soup.find_all("img,limit = 10")
36img_urls = []
37
38for img_tag in img_tags:
39    url_a = img_tag.get("src")
40    if url_a != None:
41        img_urls.append(url_a)
42
43# save_dir = input("保存先のフォルダ名をつけてください/")
44save_dir = "画像ダウンロードフォルダ/"
45if not os.path.exists(save_dir):
46    os.mkdir(save_dir)
47
48for elem_url in img_urls:
49    try:
50        r = requests.get(elem_url)
51        with open(save_dir,"wb")as fp:
52            fp.write(r.content)
53        sleep(0.1)
54    except:
55        pass
56
57browser.quit()

Pythonでスクレイピングのコード（上記）を模写しながら勉強しています。上記ができたコードでファイルがなかったら自分で名前をつけてファイルを作ってくれてそれに画像を保存できるようにしているつもりなのですが、ファイルが作成されるだけで画像が保存されませんでした。最初はエラーが多発していてそれを修正していった結果、エラーは出なくなりましたが今の結果に至っています。なにかコードに足りない部分があるのでしょうか？エラーが出ない分よけいに原因がわからずに止まっています。

https://pepenoheya.blog/python-scraping-google-img-search/
↑
元にしたコードです。

VS Code
version 1.76.0 (Universal)

requests
version 2.28.2

selenium
version 4.8.2

web_driver_manager
version 3.8.5

bs4
version 0.0.1

8524ba23

2023/03/09 02:33

コードは画像ではなくテキスト（コードの挿入）で提示ください。

MennMenn

2023/03/09 02:36

ご指摘ありがとうございます！テキストに変更させていただきました。

melian

2023/03/09 02:53

変更点は2箇所あって、 # img_tags = soup.find_all("img,limit = 10") img_tags = soup.find_all("img")[:10] と、 #with open(save_dir,"wb")as fp: with open(f'{os.path.join(save_dir, os.path.basename(elem_url))}',"wb")as fp: です。ファイル名は適当に変更してください。

MennMenn

2023/03/09 03:05

melianさん、ご回答ありがとうございます！うまく保存することができました。これはBeatifulsoupとosライブラリのバージョンアップに伴って表記方法が変化したという認識であっていますか？

melian

2023/03/09 03:11

そうですね、、soup.find_all("img,limit = 10") と書かれていますが、"img,limit =10" という表記は、(私の記憶では)何にもマッチしないかと思います。また、with open(save_dir,"wb")as fp: についてですが、これですとディレクトリ名だけを指定していますのでエラーになっているはずです。(try 節でエラーが潰されてしまっているのでエラーメッセージが表示されません)

MennMenn

2023/03/09 03:18

エラーがtryでつぶされることもあるんですね、、、ありがとうございました！

MennMenn

2023/03/09 03:21

ちなみになんですが、melianさんの回答をベストアンサーにしたいのですが、ベストアンサーに選択するボタンが出てこないのは何故かわかりますか？

melian

2023/03/09 03:25

はい、コメント欄に書いた回答にはベストアンサーを付けることができません。MennMenn さんが自己回答して、それをベストアンサーにするか、私が回答欄に転記するかのどちらかになります。

otn

2023/03/09 07:12

> エラーがtryでつぶされることもあるんですね、、、 try except: pass はエラーを潰す（エラーメッセージを出させなくする）のが目的ですよ。それ以外の何の目的で書いたのでしょうか？

MennMenn

2023/03/09 07:37

otnさん、すいませんこちらの書き込みの表現が悪かったです。本来表示して欲しいエラーも潰してしまうということを言いたかったです。

otn

2023/03/09 07:47 編集

はい。「つぶされることもある」は、「つぶされることも、つぶされないこともある」という意味ですが、つぶされないことはないです。 try except: pass は、エラーメッセージを表示させない目的で書いたのでは無いのですか？

MennMenn

2023/03/09 07:55

そのつもりでしたが、そのせいで元々の質問の原因であるエラーが発見できませんでした。

otn

2023/03/09 08:31

エラーメッセージを表示させなければ、エラーが発見できないわけですが、そう思わなかったと言うことでしたか。なるほど。

行動規範の内容に同意します

回答2件

とりあえず動くレベルで直しました。と思ったらもう答え出てましたね。
グーグルのロゴをダウンロードしようとしてエラーになっていたりしてはいますが、とりあえずご参考まで。

修正箇所は

img_tags = soup.find_all("img",limit = 10) 質問にて指摘されている通り
画像を保存する場所の指定がディレクトリ名のみになっていて絶対書き込めないのでファイル名を適当につけるように修正。

python
1import requests
2from selenium import webdriver
3from selenium.webdriver.common.by import By
4from selenium.webdriver.chrome.service import Service
5from selenium.webdriver.chrome.options import Options
6from webdriver_manager.chrome import ChromeDriverManager
7from bs4 import BeautifulSoup
8import os
9from time import sleep
10
11options = Options()
12options = webdriver.ChromeOptions()
13options.add_argument("--headless")
14# browser = webdriver.Chrome(ChromeDriverManager().install(),options=options)
15browser = webdriver.Chrome(service=Service(ChromeDriverManager().install()))
16url = "https://www.google.co.jp/imghp?hl=ja"
17browser.get(url)
18
19# kw_search = browser.find_elements_by_css_selector("#sbtc > div > div.a4bIc > input")
20kw_search = browser.find_element(By.CSS_SELECTOR,'input')
21actor_name = "絵画"
22# actor_name_number = input("次に検索したい画像の枚数を入力してください")
23
24kw_search.send_keys(str(actor_name))
25
26from selenium.webdriver.common.keys import Keys
27kw_search.send_keys(Keys.ENTER)
28
29cur_url = browser.current_url
30
31res = requests.get(cur_url)
32soup = BeautifulSoup(res.text,"html.parser")
33
34# img_tags = soup.find_all("img,limit = int(actor_name_number)")
35img_tags = soup.find_all("img",limit = 10)
36img_urls = []
37
38for img_tag in img_tags:
39    print(img_tag)
40    url_a = img_tag.get("src")
41    if url_a != None:
42        img_urls.append(url_a)
43
44# save_dir = input("保存先のフォルダ名をつけてください/")
45save_dir = "画像ダウンロードフォルダ/"
46if not os.path.exists(save_dir):
47    os.mkdir(save_dir)
48
49for i in range(0, len(img_urls)):
50    elem_url = img_urls[i]
51    try:
52        path = os.path.join(save_dir, f"画像_{i}.jpg")
53        print(f"path={path}")
54
55        r = requests.get(elem_url)
56        with open(path,"wb") as fp:
57            fp.write(r.content)
58        sleep(0.1)
59    except Exception as e:
60        print(e)
61
62#input('hit any key to exit')
63browser.quit()