urllibでの画像取得

Question

Sierra 10.12.1
python3

特定のサイトから画像を取得したいのですが
URLを正しく取得できているのにもかかわらず画像がダウンロードできませんでした。
urlopenでつまっています。HTTPErrorが検出されてしまいます。
おかしいと思いそのURLにクロームから飛んでみた結果403エラーが。
やはりurlが正しく取得できていないのかなと思い
ホームページからクリックした場合その画像が存在するページに飛んでくれました。
このとき取得できたURLと飛べたURLは全く同じでした。
ためしに飛べたURLをコピーしてメモ帳に貼り付け文字列として
そのURLで飛ぼうとした結果403エラーが起きました。
全く同じURLなのになぜこのようなことがおきるのでしょうか？？
これはセキュリティの問題でしょうか？
取得することはできないのでしょうか？

```lang-Python
from bs4 import BeautifulSoup
import urllib
from urllib import request
from urllib.request import urlopen
from urllib.error import URLError, HTTPError
import os

count=0
html = urllib.request.urlopen("指定ページ")
soup = BeautifulSoup(html)
headers={
        "User-Agent": "Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:47.0) Gecko/20100101 Firefox/47.0",
        }
clas=soup.find_all(class_="img-responsive img-private")
# print(b)
# print(b.select())
for x in clas:
    # print(x)
    try:
        url=x.get('src')
       #指定ページの確認
        print('url='+url)
        count=count+1
        print(count)
        req = request.Request(url=url, headers=headers)
        img = request.urlopen(req)
        localfile = open(os.path.basename(url), 'wb')
        localfile.write(img.read())
        img.close()
        localfile.close()
    except HTTPError as e:
        print("HTTPError")
    except URLError as e:
        print("URLError")
```

Answer

403エラーの意味は「閲覧禁止」です。
サーバがなぜそう判断したのかは、通常はクライアント側からは分かりません。

`User-Agent`だけではなく、`referer`、`Cookie`が不適切なのかもしれません。
正常/異常な各HTTP通信をキャプチャーし、両者の違いを比較し、合わせるようにすれば正常に取得できる可能性があります。

参考：[403エラーとは](http://wa3.i-3-i.info/word1488.html)

Answer

こちらを参考にしてください。


https://ja.stackoverflow.com/questions/27922/python3でwebスクレイピングしたいのですが存在するurlが開けません

関連した質問