【Pythonクローリング＆スクレイピング】でつまづきました

こちらの本でつまづきました

章	ページ	内容
2.4.1	43	f = urlopen('https://gihyo.jp/dp')の実行結果

■前提条件
環境は本のAppendixを使い準備しました。

■実行結果

>>> from urllib.request import urlopen
>>> f=urlopen('https://gihyo.jp/dp')
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
  File "/usr/lib/python3.4/urllib/request.py", line 161, in urlopen
    return opener.open(url, data, timeout)
  File "/usr/lib/python3.4/urllib/request.py", line 469, in open
    response = meth(req, response)
  File "/usr/lib/python3.4/urllib/request.py", line 579, in http_response
    'http', request, response, code, msg, hdrs)
  File "/usr/lib/python3.4/urllib/request.py", line 507, in error
    return self._call_chain(*args)
  File "/usr/lib/python3.4/urllib/request.py", line 441, in _call_chain
    result = func(*args)
  File "/usr/lib/python3.4/urllib/request.py", line 587, in http_error_default
    raise HTTPError(req.full_url, code, msg, hdrs, fp)
urllib.error.HTTPError: HTTP Error 403: Forbidden

■知りたい事
0. なぜこのような状態になるのか
0. エラーを起こさず実行するための解決策

よろしくお願いします。

行動規範の内容に同意します

回答3件

ベストアンサー

こちらにWebサイトの変更等により動作しなくなった箇所の修正情報等が載っているようです。内容の通り「https://gihyo.jp/dp」にアクセスできなくなったので「**http://sample.scraping-book.com/dp**」に変更してくださいとのことです。
Pythonクローリング＆スクレイピング ―データ収集・解析のための実践開発ガイド― サポートページ

P.43, 2.4以降のgihyo.jp/dpにアクセスする操作が動作しない

gihyo.jp側の変更によりurllibによって「https://gihyo.jp/dp」にアクセスできなくなりました。
書籍中で案内している「https://gihyo.jp/dp」のURLをすべて，サンプルサイトの「http://sample.scraping-book.com/dp」に変更してください。

python
1 >>> from urllib.request import urlopen
2 >>> f = urlopen('http://sample.scraping-book.com/dp')

投稿2018/07/30 09:47

編集2018/07/30 13:20

wakame

総合スコア1170

yukinkosan

2018/07/31 16:00

wakame様ご回答ありがとうございます！サポートページに答えがあったんですね。完全に抜けていました。問題無く実行できることを確認できました。ありがとうございます！

行動規範の内容に同意します

403は相手のサーバがアクセスを拒否したときのステータスコードです。

理由はいろいろ考えられますが、今回の場合、その技術評論社のサイトがurllibからのアクセスを制限しているようです（具体的にどんな制限なのかはよくわかりませんが・・・）。

ユーザーエージェントを偽装して、適当な他のブラウザに見せかけるといけます。

python
1>>> import urllib
2>>> r = urllib.request.Request('https://gihyo.jp/dp', headers={'User-Agent': 'Mozilla/5.0'})
3>>> f = urllib.request.urlopen(r)

技術評論社の本で技術評論社のサイトなのに、本が出てからサンプル通り動かなく設定してくれた訳で、ちょっとひどい話ではあります（それとも、この本が出たせいでマナーの悪いスクレイピングが殺到したとか？）。

参考：
urlopenを使うときのエラー回避 | mrsekutの備忘録

Pythonのurllib.requestのユーザーエージェントの変更 - みーのぺーじ

投稿2018/07/29 11:15

hayataka2049

総合スコア30939

yukinkosan

2018/07/31 16:04

hayataka2049様ご回答ありがとうございます！このような方法で実行することもできるのですね。機械的にアクセスしているようにサーバーに見せない工夫なんですね。勉強になりました。出版社が公式的に回答を出しているということもあって、wakame様をベストアンサーに選ばせていただきました。ありがとうございました。

行動規範の内容に同意します

手元に本が無いので正確な事は分かりませんが、、、