質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.35%
スクレイピング

スクレイピングとは、公開されているWebサイトからページ内の情報を抽出する技術です。

Webサイト

一つのドメイン上に存在するWebページの集合体をWebサイトと呼びます。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

Q&A

解決済

2回答

2289閲覧

Python Webスクレイピング ページ内の画像を全て保存したい。

pythonbegginer

総合スコア25

スクレイピング

スクレイピングとは、公開されているWebサイトからページ内の情報を抽出する技術です。

Webサイト

一つのドメイン上に存在するWebページの集合体をWebサイトと呼びます。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

0グッド

0クリップ

投稿2020/03/26 09:29

Pythonを初めて数日の初心者で、プログラミングも勉強始めたばかりです。
最終的にWebスクレイピングができるようになりたいと思っています。

検索してもわからなく、つまづいているので詳しい方教えて下さいm(__)m

※Windows10のコマンドプロンプトから実行しています。
※Webスクレイピングの規約は確認しています。

★やりたいこと★

ホットペッパーで適当に検索したページになりますが、料理メニューの写真を
Webスクレイピングで取得して、指定のフォルダに保存したい。

■問題■
ページ内の写真を全て保存したいのですが、1枚しか保存されません。
どこをどう直したらいいかわかりません。

■参考にしているサイト■
https://hashikake.com/scraping_img#source

★使用しているコード★

Python

1#●画像ファイルをダウンロードするための準備 2# ①-①.ライブラリをインポート 3import time 4import re 5import requests 6from pathlib import Path 7from bs4 import BeautifulSoup 8# ①-②.出力フォルダを作成 9output_folder = Path('C:\python\img') 10output_folder.mkdir(exist_ok=True) 11# ①-③.スクレイピングしたいURLを設定 12url = 'https://www.hotpepper.jp/strJ001218137/food/' 13 14# ①-④.画像ページのURLを格納するリストを用意 15linklist = [] 16 17#●検索結果ページから画像のリンクを取り出す 18# ②-①.検索結果ページのhtmlを取得 19html = requests.get(url).text 20# ②-②.検索結果ページのオブジェクトを作成 21soup = BeautifulSoup(html, 'lxml') 22# ②-③.画像リンクのタグをすべて取得 23a_list =soup.select('div.columnPlex > p > a') 24# ②-④.画像リンクを1つずつ取り出す 25for a in a_list: 26# ②-⑤.画像ページのURLを抽出 27 link_url = a.attrs['href'] 28# ②-⑥.画像ページのURLをリストに追加 29 linklist.append(link_url) 30 time.sleep(1.0) 31 32 33# ③-⑦.画像ファイルの名前を抽出 34filename = re.search(".*/(.*png|.*jpg)$",link_url) 35# ③-⑧.保存先のファイルパスを生成 36save_path = output_folder.joinpath(filename.group(1)) 37time.sleep(1.0) 38# ●画像ファイルのURLからデータをダウンロード 39try: 40# ④-①.画像ファイルのURLからデータを取得 41image = requests.get(link_url) 42# ④-②.保存先のファイルパスにデータを保存 43open(save_path, 'wb').write(image.content) 44# ④-③.保存したファイル名を表示 45print(save_path) 46time.sleep(1.0) 47except ValueError: 48# ④-④.失敗した場合はエラー表示 49print("ValueError!")

宜しくお願いします。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答2

0

ベストアンサー

ページ内の写真を全て保存したいのですが、1枚しか保存されません。

質問のコードだと 「# ③-⑦.画像ファイルの名前を抽出」より後ろの部分は、1回しか実行されませんので、1枚しか保存されないのでしょう。

「# ③-⑦.画像ファイルの名前を抽出」から後ろの部分を 必要な分だけ実行すれば良いと思います。


もしかして、画像を取得する部分もループの中で実行しているつもりで書かれたコードでしょうか?

Python は、インデントが重要ですが、インデントについて理解はされていますか?


参考にされたサイトのようにするのであれば、前半で抽出して、リストに追加した linklist を利用してループする for page_url in linklist: を追加して、「# ③-⑦.画像ファイルの名前を抽出」から後ろの部分をインデントして、追加した for ループの中に入れてください。

また、try:except ValueError: で実行する部分にもインデントが必要です。

例(後半部分のみ記載)

Python

1for page_url in linklist: 2 # ③-⑦.画像ファイルの名前を抽出 3 filename = re.search(".*/(.*png|.*jpg)$",link_url) 4 # ③-⑧.保存先のファイルパスを生成 5 save_path = output_folder.joinpath(filename.group(1)) 6 time.sleep(1.0) 7 # ●画像ファイルのURLからデータをダウンロード 8 try: 9 # ④-①.画像ファイルのURLからデータを取得 10 image = requests.get(link_url) 11 # ④-②.保存先のファイルパスにデータを保存 12 open(save_path, 'wb').write(image.content) 13 # ④-③.保存したファイル名を表示 14 print(save_path) 15 time.sleep(1.0) 16 except ValueError: 17 # ④-④.失敗した場合はエラー表示 18 print("ValueError!")

また、今回の質問のプログラムでは、下記のようにインデントを修正して、1つ目の for ループ内に後半部分を入れるだけでも同じ機能になると思われます。(目指していたのはこちらでしょうか?)

#●画像ファイルをダウンロードするための準備 # ①-①.ライブラリをインポート import time import re import requests from pathlib import Path from bs4 import BeautifulSoup # ①-②.出力フォルダを作成 output_folder = Path('C:\python\img') output_folder.mkdir(exist_ok=True) # ①-③.スクレイピングしたいURLを設定 url = 'https://www.hotpepper.jp/strJ001218137/food/' # ①-④.画像ページのURLを格納するリストを用意 linklist = [] #●検索結果ページから画像のリンクを取り出す # ②-①.検索結果ページのhtmlを取得 html = requests.get(url).text # ②-②.検索結果ページのオブジェクトを作成 soup = BeautifulSoup(html, 'lxml') # ②-③.画像リンクのタグをすべて取得 a_list =soup.select('div.columnPlex > p > a') # ②-④.画像リンクを1つずつ取り出す for a in a_list: # ②-⑤.画像ページのURLを抽出 link_url = a.attrs['href'] # ②-⑥.画像ページのURLをリストに追加 linklist.append(link_url) time.sleep(1.0) # ③-⑦.画像ファイルの名前を抽出 filename = re.search(".*/(.*png|.*jpg)$",link_url) # ③-⑧.保存先のファイルパスを生成 save_path = output_folder.joinpath(filename.group(1)) time.sleep(1.0) # ●画像ファイルのURLからデータをダウンロード try: # ④-①.画像ファイルのURLからデータを取得 image = requests.get(link_url) # ④-②.保存先のファイルパスにデータを保存 open(save_path, 'wb').write(image.content) # ④-③.保存したファイル名を表示 print(save_path) time.sleep(1.0) except ValueError: # ④-④.失敗した場合はエラー表示 print("ValueError!")

投稿2020/03/26 09:54

編集2020/03/26 10:22
CHERRY

総合スコア25218

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

pythonbegginer

2020/03/26 10:02

早速の回答ありがとうございます。Progateと併用して練習しているのですが、4行インデント、、となんとなくしか分かってないですね涙。。。 そうですねループのをしたいのですが、Forを使うことはわかるのですが、全然わからなくて。。。 参考にできるサイトとか教えてもらえると大変助かります。 もう少し勉強してみます。
pythonbegginer

2020/03/27 02:51

ひえーーー(´;ω;`)完璧すぎるコードをありがとうございます!まさにそれでした!嬉しいです。 インデントがこんなに大事だったとは・・・・。もっと勉強して頑張ります。 本当にありがとうございます。
guest

0

ファイル上書きで最後のデータしか書き込まれていないのではないでしょうか?

open(save_path, 'wb').write(image.content)

Pythonでファイルの読み込み、書き込み(作成・追記)

投稿2020/03/26 10:08

meshi_s

総合スコア276

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.35%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問