BeautifulSoupで画像を大量にダウンロードしたい

###前提・実現したいこと
BeautifulSoupでオライリー社の本の表紙をまとめてダウンロードしたい。
Windowsにアナコンダをインストールして使っています。

###発生している問題・エラーメッセージ
ページをダウンロード中http://www.oreilly.com/animals.csp．．．
画像をダウンロード中http://covers.oreilly.com/images/9780596155452/cat.gif．．．
ページをダウンロード中http://www.oreilly.com/animals.csp．．．
表紙画像が見つかりませんでした。
ページをダウンロード中http://www.oreilly.com/animals.csp．．．
表紙画像が見つかりませんでした。

と表示され続け、画像が最初の1枚のみしか保存されない。
###該当のソースコード

Python
1#! python3
2# downloadoreilly.py
3
4from urllib.request import urlopen
5import requests,os,bs4
6
7url='http://www.oreilly.com/animals.csp' #開始URL
8resp=urlopen(url)
9os.makedirs('oreilly',exist_ok=True)     # ./oreillyに保存する
10
11while not url.endswith('1000'):
12
13    #ページをダウンロードする
14    print('ページをダウンロード中{}．．．'.format(url))
15    res=requests.get(url)
16    res.raise_for_status()
17
18    soup=bs4.BeautifulSoup(resp.read(), 'html.parser')
19
20    #表紙画像のURLを見つける
21    oreilly_elem=soup.select('.animal-row img')
22    if oreilly_elem==[]:
23        print('表紙画像が見つかりませんでした。')
24    else:
25        oreilly_url=oreilly_elem[0].get('src')
26        #画像をダウンロードする
27        print('画像をダウンロード中{}．．．'.format(oreilly_url))
28        res=requests.get(oreilly_url)
29        res.raise_for_status()
30
31        #画像を./oreillyに保存する
32        image_file=open(os.path.join('oreilly',os.path.basename(oreilly_url)),'wb')
33        for chunk in res.iter_content(1000):
34            image_file.write(chunk)
35        image_file.close()
36
37    
38
39print('完了')
40

###補足情報(言語/FW/ツール等のバージョンなど)
http://www.oreilly.com/animals.cspを参照して表紙画像を全てダウンロードしたいと考えています。

行動規範の内容に同意します

回答2件

サイトでは１ページあたり２０冊分の情報があるのに対して、コード上では、

python
1 oreilly_url=oreilly_elem[0].get('src')

と、最初の１枚しかダウンロードしようとしていません。
対象となる分すべてをダウンロードするためには、oreilly_elemに対してループ処理してダウンロードしていく必要があります。

例(未確認):

for elm in oreilly_elem:
     oreilly_url = elm.get('src')
    # ダウンロード処理

投稿2017/09/10 03:52

attakei

総合スコア2738

kisamasaki

2017/09/10 09:38

お返事ありがとうございます。色々試行錯誤してみましたが、画像の最後のみが保存され、残りが無視されているという状態です。

attakei

2017/09/10 10:01

どんなファイル名のものを保存しようとしているか、正しく認識できていますか？もう一度画像のURLを見て、そのファイル名の決定方法でやりたいことを正しくできるかを考えてみることをおすすめします。

行動規範の内容に同意します

直接的な回答ではないですが、
スクレイピングするときは、1秒程度はスリープ入れた方がいいと思います。

投稿2017/09/10 19:51

退会済みユーザー

総合スコア0

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

まだベストアンサーが選ばれていません

会員登録して回答してみよう

アカウントをお持ちの方は

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう！

BeautifulSoupで画像を大量にダウンロードしたい

関連した質問