質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

Q&A

2回答

1824閲覧

BeautifulSoupで画像を大量にダウンロードしたい

kisamasaki

総合スコア13

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

0グッド

0クリップ

投稿2017/09/09 11:04

###前提・実現したいこと
BeautifulSoupでオライリー社の本の表紙をまとめてダウンロードしたい。
Windowsにアナコンダをインストールして使っています。

###発生している問題・エラーメッセージ
ページをダウンロード中http://www.oreilly.com/animals.csp...
画像をダウンロード中http://covers.oreilly.com/images/9780596155452/cat.gif...
ページをダウンロード中http://www.oreilly.com/animals.csp...
表紙画像が見つかりませんでした。
ページをダウンロード中http://www.oreilly.com/animals.csp...
表紙画像が見つかりませんでした。

と表示され続け、画像が最初の1枚のみしか保存されない。
###該当のソースコード

Python

1#! python3 2# downloadoreilly.py 3 4from urllib.request import urlopen 5import requests,os,bs4 6 7url='http://www.oreilly.com/animals.csp' #開始URL 8resp=urlopen(url) 9os.makedirs('oreilly',exist_ok=True) # ./oreillyに保存する 10 11while not url.endswith('1000'): 12 13 #ページをダウンロードする 14 print('ページをダウンロード中{}...'.format(url)) 15 res=requests.get(url) 16 res.raise_for_status() 17 18 soup=bs4.BeautifulSoup(resp.read(), 'html.parser') 19 20 #表紙画像のURLを見つける 21 oreilly_elem=soup.select('.animal-row img') 22 if oreilly_elem==[]: 23 print('表紙画像が見つかりませんでした。') 24 else: 25 oreilly_url=oreilly_elem[0].get('src') 26 #画像をダウンロードする 27 print('画像をダウンロード中{}...'.format(oreilly_url)) 28 res=requests.get(oreilly_url) 29 res.raise_for_status() 30 31 #画像を./oreillyに保存する 32 image_file=open(os.path.join('oreilly',os.path.basename(oreilly_url)),'wb') 33 for chunk in res.iter_content(1000): 34 image_file.write(chunk) 35 image_file.close() 36 37 38 39print('完了') 40

###補足情報(言語/FW/ツール等のバージョンなど)
http://www.oreilly.com/animals.cspを参照して表紙画像を全てダウンロードしたいと考えています。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答2

0

サイトでは1ページあたり20冊分の情報があるのに対して、コード上では、

python

1 oreilly_url=oreilly_elem[0].get('src')

と、最初の1枚しかダウンロードしようとしていません。
対象となる分すべてをダウンロードするためには、oreilly_elemに対してループ処理してダウンロードしていく必要があります。

例(未確認):

for elm in oreilly_elem: oreilly_url = elm.get('src') # ダウンロード処理

投稿2017/09/10 03:52

attakei

総合スコア2738

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

kisamasaki

2017/09/10 09:38

お返事ありがとうございます。色々試行錯誤してみましたが、画像の最後のみが保存され、残りが無視されているという状態です。
attakei

2017/09/10 10:01

どんなファイル名のものを保存しようとしているか、正しく認識できていますか? もう一度画像のURLを見て、そのファイル名の決定方法でやりたいことを正しくできるかを考えてみることをおすすめします。
guest

0

直接的な回答ではないですが、
スクレイピングするときは、1秒程度はスリープ入れた方がいいと思います。

投稿2017/09/10 19:51

退会済みユーザー

退会済みユーザー

総合スコア0

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

まだベストアンサーが選ばれていません

会員登録して回答してみよう

アカウントをお持ちの方は

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問