回答率: 85.35%

質問するログイン新規登録

質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう！

新規登録して質問してみよう

ただいま回答率: 85.35%

トップスクレイピングに関する質問

Q&A

1回答

1071閲覧

class名を指定して画像をダウンロードしたい(python3,ライブラリはrequests)

総合スコア0

0グッド

0クリップ

投稿2020/05/19 05:34

編集2020/05/19 05:59

0

0

Python
1import requests 
2import re       
3import sys      
4 
5print('ダウンロード中…')
6
7def save_image(file_name, image):
8    with open(file_name, 'wb') as f:
9        f.write(image)
10 
11if __name__ == '__main__':
12    home_url = 'ダウンロードする画像があるサイトのURL'
13    img_dir  = 'images'
14 
15    timeout = 10 
16    params  = {} 
17    cookies = {} 
18    headers = {} 
19 
20    
21    home_response = requests.get(home_url, timeout=timeout, params=params, cookies=cookies, headers=headers, stream=True)
22 
23   
24    if home_response.raise_for_status() != None:
25        sys.exit('HTTP Error When Accessing The Target URL!')
26 
27    html       = home_response.text
28    img_search = re.findall(r'"(https?://[a-zA-Z0-9:/.=_\-]*jpg|jpeg|JPG|JPEG)"', html)
29 
30    if img_search == []: 
31        sys.exit('Not Found Image URLs!') 
32 
33    for img_url in img_search:
34        name_search = re.findall(r'/([a-zA-Z0-9:.=_-]*jpg|jpeg|JPG|JPEG)', img_url)
35        img_name    = name_search[0]
36
37        img_response = requests.get(img_url, timeout=timeout, params=params, cookies=cookies, headers=headers, stream=False)
38        if img_response.raise_for_status() != None:
39            sys.exit('HTTP Error When Accessing The Image File!')
40 
41        save_image('保存フォルダーのパス'+'/'+img_name, img_response.content)
42        
43
44
45print('ダウンロード完了！')
46```### 前提・実現したいこと
47Pythonのrequestsなどのモジュールを使って、webサイトから画像だけを保存するプログラムを作っています。
48特定の画像のclass名を指定して保存するには、どの部分を修正（またはコードを追加）すればよいですか？

2020/05/19 05:40

・ソースコードは「コードの挿入」で記載してください。修正可能です。・問題点を明確にしてください

2020/05/19 05:52

編集しました

2020/05/19 05:52

「requestsを使って」というのはそれ以外のモジュールは使用禁止という制約を意味しますか？

2020/05/19 05:58

いえ、別のモジュールでも構いません。僕の場合、requestsが使いやすかったというだけです。説明が下手で申し訳ありません…

2020/05/19 06:00 編集

beautifulsoupを使うと簡単に書けるかと思います。要素の抽出までは既に出来てるんですかね？

2020/05/19 06:02

そうですか…試してみます

2020/05/19 06:06

idやclassを指定しての要素の取得が簡潔に書けます。requestsだけで作ったことがないです。

行動規範の内容に同意します

回答1件

0

requestsは主にHTTP(S)リクエストを投げるもので、取ってきた結果がHTMLなら別途パースを行う必要があります。

正規表現だけでは基本的にどうにもならないので、lxmlやbeautifulsoupなどのライブラリを用いてください。

投稿2020/05/19 07:54

総合スコア30935

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

まだベストアンサーが選ばれていません

会員登録して回答してみよう

アカウントをお持ちの方は

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.35%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

関連した質問

トップスクレイピングに関する質問

class名を指定して画像をダウンロードしたい(python3,ライブラリはrequests)

関連した質問

同じタグがついた質問を見る

運営からのお知らせ

【ジャック広告の配信について】現在、非ログイン状態のユーザー様に対して一部の地域限定でジャック広告を配信しております。詳細につきましてはteratailブログをご確認ください。 https://blog.teratail.com/entry/jack-ad-202412

過去のお知らせを見る