Python Webスクレイピング　ページ内の画像を全て保存したい。

Pythonを初めて数日の初心者で、プログラミングも勉強始めたばかりです。
最終的にWebスクレイピングができるようになりたいと思っています。

検索してもわからなく、つまづいているので詳しい方教えて下さいm(__)m

※Windows10のコマンドプロンプトから実行しています。
※Webスクレイピングの規約は確認しています。

★やりたいこと★

ホットペッパーで適当に検索したページになりますが、料理メニューの写真を
Webスクレイピングで取得して、指定のフォルダに保存したい。

■問題■
ページ内の写真を全て保存したいのですが、１枚しか保存されません。
どこをどう直したらいいかわかりません。

■参考にしているサイト■
https://hashikake.com/scraping_img#source

★使用しているコード★

Python
1#●画像ファイルをダウンロードするための準備
2# ①-①.ライブラリをインポート
3import time
4import re
5import requests
6from pathlib import Path
7from bs4 import BeautifulSoup
8# ①-②.出力フォルダを作成
9output_folder = Path('C:\python\img')
10output_folder.mkdir(exist_ok=True)
11# ①-③.スクレイピングしたいURLを設定
12url = 'https://www.hotpepper.jp/strJ001218137/food/'
13
14# ①-④.画像ページのURLを格納するリストを用意
15linklist = []
16
17#●検索結果ページから画像のリンクを取り出す
18# ②-①.検索結果ページのhtmlを取得
19html = requests.get(url).text
20# ②-②.検索結果ページのオブジェクトを作成
21soup = BeautifulSoup(html, 'lxml')
22# ②-③.画像リンクのタグをすべて取得
23a_list =soup.select('div.columnPlex > p > a')
24# ②-④.画像リンクを1つずつ取り出す
25for a in a_list:
26# ②-⑤.画像ページのURLを抽出
27    link_url = a.attrs['href']
28# ②-⑥.画像ページのURLをリストに追加
29    linklist.append(link_url)
30    time.sleep(1.0)
31
32
33# ③-⑦.画像ファイルの名前を抽出
34filename = re.search(".*/(.*png|.*jpg)$",link_url)
35# ③-⑧.保存先のファイルパスを生成
36save_path = output_folder.joinpath(filename.group(1))
37time.sleep(1.0)
38# ●画像ファイルのURLからデータをダウンロード
39try:
40# ④-①.画像ファイルのURLからデータを取得
41image = requests.get(link_url)
42# ④-②.保存先のファイルパスにデータを保存
43open(save_path, 'wb').write(image.content)
44# ④-③.保存したファイル名を表示
45print(save_path)
46time.sleep(1.0)
47except ValueError:
48# ④-④.失敗した場合はエラー表示
49print("ValueError!")

宜しくお願いします。

行動規範の内容に同意します

回答2件

ベストアンサー

ページ内の写真を全て保存したいのですが、１枚しか保存されません。

質問のコードだと「# ③-⑦.画像ファイルの名前を抽出」より後ろの部分は、1回しか実行されませんので、1枚しか保存されないのでしょう。

「# ③-⑦.画像ファイルの名前を抽出」から後ろの部分を　必要な分だけ実行すれば良いと思います。

もしかして、画像を取得する部分もループの中で実行しているつもりで書かれたコードでしょうか？

Python は、インデントが重要ですが、インデントについて理解はされていますか？

参考にされたサイトのようにするのであれば、前半で抽出して、リストに追加した linklist を利用してループする for page_url in linklist: を追加して、「# ③-⑦.画像ファイルの名前を抽出」から後ろの部分をインデントして、追加した for ループの中に入れてください。

また、try: や except ValueError: で実行する部分にもインデントが必要です。

例(後半部分のみ記載)

Python
1for page_url in linklist:
2    # ③-⑦.画像ファイルの名前を抽出
3    filename = re.search(".*/(.*png|.*jpg)$",link_url)
4    # ③-⑧.保存先のファイルパスを生成
5    save_path = output_folder.joinpath(filename.group(1))
6    time.sleep(1.0)
7    # ●画像ファイルのURLからデータをダウンロード
8    try:
9        # ④-①.画像ファイルのURLからデータを取得
10        image = requests.get(link_url)
11        # ④-②.保存先のファイルパスにデータを保存
12        open(save_path, 'wb').write(image.content)
13        # ④-③.保存したファイル名を表示
14        print(save_path)
15        time.sleep(1.0)
16    except ValueError:
17        # ④-④.失敗した場合はエラー表示
18        print("ValueError!")

また、今回の質問のプログラムでは、下記のようにインデントを修正して、1つ目の for ループ内に後半部分を入れるだけでも同じ機能になると思われます。(目指していたのはこちらでしょうか？)

#●画像ファイルをダウンロードするための準備
# ①-①.ライブラリをインポート
import time
import re
import requests
from pathlib import Path
from bs4 import BeautifulSoup
# ①-②.出力フォルダを作成
output_folder = Path('C:\python\img')
output_folder.mkdir(exist_ok=True)
# ①-③.スクレイピングしたいURLを設定
url = 'https://www.hotpepper.jp/strJ001218137/food/'

# ①-④.画像ページのURLを格納するリストを用意
linklist = []

#●検索結果ページから画像のリンクを取り出す
# ②-①.検索結果ページのhtmlを取得
html = requests.get(url).text
# ②-②.検索結果ページのオブジェクトを作成
soup = BeautifulSoup(html, 'lxml')
# ②-③.画像リンクのタグをすべて取得
a_list =soup.select('div.columnPlex > p > a')
# ②-④.画像リンクを1つずつ取り出す
for a in a_list:
# ②-⑤.画像ページのURLを抽出
    link_url = a.attrs['href']
# ②-⑥.画像ページのURLをリストに追加
    linklist.append(link_url)
    time.sleep(1.0)

    # ③-⑦.画像ファイルの名前を抽出
    filename = re.search(".*/(.*png|.*jpg)$",link_url)
    # ③-⑧.保存先のファイルパスを生成
    save_path = output_folder.joinpath(filename.group(1))
    time.sleep(1.0)
    # ●画像ファイルのURLからデータをダウンロード
    try:
        # ④-①.画像ファイルのURLからデータを取得
        image = requests.get(link_url)
        # ④-②.保存先のファイルパスにデータを保存
        open(save_path, 'wb').write(image.content)
        # ④-③.保存したファイル名を表示
        print(save_path)
        time.sleep(1.0)
    except ValueError:
        # ④-④.失敗した場合はエラー表示
        print("ValueError!")

投稿2020/03/26 09:54

編集2020/03/26 10:22

CHERRY

総合スコア25175

pythonbegginer

2020/03/26 10:02

早速の回答ありがとうございます。Progateと併用して練習しているのですが、４行インデント、、となんとなくしか分かってないですね涙。。。そうですねループのをしたいのですが、Forを使うことはわかるのですが、全然わからなくて。。。参考にできるサイトとか教えてもらえると大変助かります。もう少し勉強してみます。

pythonbegginer

2020/03/27 02:51

ひえーーー(´;ω;｀)完璧すぎるコードをありがとうございます！まさにそれでした！嬉しいです。インデントがこんなに大事だったとは・・・・。もっと勉強して頑張ります。本当にありがとうございます。

行動規範の内容に同意します

ファイル上書きで最後のデータしか書き込まれていないのではないでしょうか？

open(save_path, 'wb').write(image.content)

Pythonでファイルの読み込み、書き込み（作成・追記）

投稿2020/03/26 10:08

meshi_s

総合スコア276

pythonbegginer

2020/03/27 02:51

ありがとうございます。

行動規範の内容に同意します

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.47%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう！

Python Webスクレイピング　ページ内の画像を全て保存したい。

関連した質問