Pythonを初めて数日の初心者で、プログラミングも勉強始めたばかりです。
最終的にWebスクレイピングができるようになりたいと思っています。
検索してもわからなく、つまづいているので詳しい方教えて下さいm(__)m
※Windows10のコマンドプロンプトから実行しています。
※Webスクレイピングの規約は確認しています。
★やりたいこと★
食べログで指定したページの、料理メニューの写真を
Webスクレイピングで取得して、指定のフォルダに保存したい。
■問題■
link_url = a.attrs['href']
の部分で以下のエラーが出ます。
Traceback (most recent call last):
File "<stdin>", line 3, in <module>
KeyError: 'href'
■参考にしているサイト■
https://hashikake.com/scraping_img#source
★使用しているコード★
Python
1#●画像ファイルをダウンロードするための準備 2# ①-①.ライブラリをインポート 3import time 4import re 5import requests 6from pathlib import Path 7from bs4 import BeautifulSoup 8# ①-②.出力フォルダを作成 9output_folder = Path('C:\python\img') 10output_folder.mkdir(exist_ok=True) 11# ①-③.スクレイピングしたいURLを設定 12url = 'https://tabelog.com/tokyo/A1303/A130302/13219514/dtlmenu/' 13 14# ①-④.画像ページのURLを格納するリストを用意 15linklist = [] 16 17#●検索結果ページから画像のリンクを取り出す 18# ②-①.検索結果ページのhtmlを取得 19html = requests.get(url).text 20# ②-②.検索結果ページのオブジェクトを作成 21soup = BeautifulSoup(html, 'lxml') 22# ②-③.画像リンクのタグをすべて取得 23a_list =soup.select('div.rstdtl-menu-lst__img') 24 25# ②-④.画像リンクを1つずつ取り出す 26for a in a_list: 27# ②-⑤.画像ページのURLを抽出 28 link_url = a.attrs['href'] 29# ②-⑥.画像ページのURLをリストに追加 30 linklist.append(link_url) 31 #time.sleep(1.0) 32 33 # ③-⑦.画像ファイルの名前を抽出 34 filename = re.search(".*/(.*png|.*jpg)$",link_url) 35 # ③-⑧.保存先のファイルパスを生成 36 save_path = output_folder.joinpath(filename.group(1)) 37 time.sleep(1.0) 38 # ●画像ファイルのURLからデータをダウンロード 39 try: 40 # ④-①.画像ファイルのURLからデータを取得 41 image = requests.get(link_url) 42 # ④-②.保存先のファイルパスにデータを保存 43 open(save_path, 'wb').write(image.content) 44 # ④-③.保存したファイル名を表示 45 print(save_path) 46 time.sleep(1.0) 47 except ValueError: 48 # ④-④.失敗した場合はエラー表示 49 print("ValueError!")
宜しくお願いします。
回答1件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2020/03/31 05:29