質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.50%
Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

MacOS(OSX)

MacOSとは、Appleの開発していたGUI(グラフィカルユーザーインターフェース)を採用したオペレーションシステム(OS)です。Macintoshと共に、市場に出てGUIの普及に大きく貢献しました。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

Q&A

2回答

966閲覧

urllibでの画像取得

kaitokimura

総合スコア59

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

MacOS(OSX)

MacOSとは、Appleの開発していたGUI(グラフィカルユーザーインターフェース)を採用したオペレーションシステム(OS)です。Macintoshと共に、市場に出てGUIの普及に大きく貢献しました。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

0グッド

0クリップ

投稿2017/09/09 09:19

編集2022/01/12 10:55

Sierra 10.12.1
python3

特定のサイトから画像を取得したいのですが
URLを正しく取得できているのにもかかわらず画像がダウンロードできませんでした。
urlopenでつまっています。HTTPErrorが検出されてしまいます。
おかしいと思いそのURLにクロームから飛んでみた結果403エラーが。
やはりurlが正しく取得できていないのかなと思い
ホームページからクリックした場合その画像が存在するページに飛んでくれました。
このとき取得できたURLと飛べたURLは全く同じでした。
ためしに飛べたURLをコピーしてメモ帳に貼り付け文字列として
そのURLで飛ぼうとした結果403エラーが起きました。
全く同じURLなのになぜこのようなことがおきるのでしょうか??
これはセキュリティの問題でしょうか?
取得することはできないのでしょうか?

lang

1from bs4 import BeautifulSoup 2import urllib 3from urllib import request 4from urllib.request import urlopen 5from urllib.error import URLError, HTTPError 6import os 7 8count=0 9html = urllib.request.urlopen("指定ページ") 10soup = BeautifulSoup(html) 11headers={ 12 "User-Agent": "Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:47.0) Gecko/20100101 Firefox/47.0", 13 } 14clas=soup.find_all(class_="img-responsive img-private") 15# print(b) 16# print(b.select()) 17for x in clas: 18 # print(x) 19 try: 20 url=x.get('src') 21 #指定ページの確認 22 print('url='+url) 23 count=count+1 24 print(count) 25 req = request.Request(url=url, headers=headers) 26 img = request.urlopen(req) 27 localfile = open(os.path.basename(url), 'wb') 28 localfile.write(img.read()) 29 img.close() 30 localfile.close() 31 except HTTPError as e: 32 print("HTTPError") 33 except URLError as e: 34 print("URLError")

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答2

0

403エラーの意味は「閲覧禁止」です。
サーバがなぜそう判断したのかは、通常はクライアント側からは分かりません。

User-Agentだけではなく、refererCookieが不適切なのかもしれません。
正常/異常な各HTTP通信をキャプチャーし、両者の違いを比較し、合わせるようにすれば正常に取得できる可能性があります。

参考:403エラーとは

投稿2017/09/10 02:41

can110

総合スコア38233

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

kaitokimura

2017/09/10 12:09

詳しくわからないので調べながら少しやってみたいと思います。ありがとうございます。
guest

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

kaitokimura

2017/09/09 12:34 編集

記載されたユーザーエージェントや数種類検索して調べたものを扱ってみましたがうまくいきませんでした;; コード記載しましたので悪いところや指定間違い、解決策がある場合お願いいたします。
hiko1129

2017/09/11 06:03

ユーザーエージェントを下記にするとどうなりますか? Mozilla/5.0 (Macintosh; Intel Mac OS X 10.19.6) AppleWebKit/537.18.30 (KHTML, like Gecko) Chrome/60.0.3038.15 Safari/537.18.30
kaitokimura

2017/09/11 13:39

httperrorでかわりません。 実際にアクセスしてもコピーして貼り付けた場合アクセスできなくなるあたり、ユーザーエージェントというよりクッキーなどの問題の方が濃厚そうです。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

まだベストアンサーが選ばれていません

会員登録して回答してみよう

アカウントをお持ちの方は

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.50%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問