質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

90.52%

  • Python

    7953questions

    Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

  • スクレイピング

    330questions

【Pythonクローリング&スクレイピング】でつまづきました

解決済

回答 3

投稿 編集

  • 評価
  • クリップ 0
  • VIEW 267

yukinkosan

score 1

こちらの本でつまづきました

![イメージ説明

ページ 内容
2.4.1 43 f = urlopen('https://gihyo.jp/dp')の実行結果

■前提条件
環境は本のAppendixを使い準備しました。

■実行結果

>>> from urllib.request import urlopen
>>> f=urlopen('https://gihyo.jp/dp')
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
  File "/usr/lib/python3.4/urllib/request.py", line 161, in urlopen
    return opener.open(url, data, timeout)
  File "/usr/lib/python3.4/urllib/request.py", line 469, in open
    response = meth(req, response)
  File "/usr/lib/python3.4/urllib/request.py", line 579, in http_response
    'http', request, response, code, msg, hdrs)
  File "/usr/lib/python3.4/urllib/request.py", line 507, in error
    return self._call_chain(*args)
  File "/usr/lib/python3.4/urllib/request.py", line 441, in _call_chain
    result = func(*args)
  File "/usr/lib/python3.4/urllib/request.py", line 587, in http_error_default
    raise HTTPError(req.full_url, code, msg, hdrs, fp)
urllib.error.HTTPError: HTTP Error 403: Forbidden

■知りたい事

  1. なぜこのような状態になるのか
  2. エラーを起こさず実行するための解決策

よろしくお願いします。

  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

回答 3

checkベストアンサー

+2

こちらにWebサイトの変更等により動作しなくなった箇所の修正情報等が載っているようです。内容の通り「https://gihyo.jp/dp」にアクセスできなくなったので「http://sample.scraping-book.com/dp」に変更してくださいとのことです。
Pythonクローリング&スクレイピング ―データ収集・解析のための実践開発ガイド― サポートページ

P.43, 2.4以降のgihyo.jp/dpにアクセスする操作が動作しない
gihyo.jp側の変更によりurllibによって「https://gihyo.jp/dp」にアクセスできなくなりました。
書籍中で案内している「https://gihyo.jp/dp」のURLをすべて,サンプルサイトの「http://sample.scraping-book.com/dp」に変更してください。

 >>> from urllib.request import urlopen
 >>> f = urlopen('http://sample.scraping-book.com/dp')

投稿

編集

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2018/08/01 01:00

    wakame様
    ご回答ありがとうございます!
    サポートページに答えがあったんですね。完全に抜けていました。

    問題無く実行できることを確認できました。
    ありがとうございます!

    キャンセル

+1

403は相手のサーバがアクセスを拒否したときのステータスコードです。

理由はいろいろ考えられますが、今回の場合、その技術評論社のサイトがurllibからのアクセスを制限しているようです(具体的にどんな制限なのかはよくわかりませんが・・・)。

ユーザーエージェントを偽装して、適当な他のブラウザに見せかけるといけます。

>>> import urllib
>>> r = urllib.request.Request('https://gihyo.jp/dp', headers={'User-Agent': 'Mozilla/5.0'})
>>> f = urllib.request.urlopen(r)

技術評論社の本で技術評論社のサイトなのに、本が出てからサンプル通り動かなく設定してくれた訳で、ちょっとひどい話ではあります(それとも、この本が出たせいでマナーの悪いスクレイピングが殺到したとか?)。


参考:
urlopenを使うときのエラー回避 | mrsekutの備忘録

Pythonのurllib.requestのユーザーエージェントの変更 - みーのぺーじ

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2018/08/01 01:04

    hayataka2049様
    ご回答ありがとうございます!
    このような方法で実行することもできるのですね。
    機械的にアクセスしているようにサーバーに見せない工夫なんですね。勉強になりました。

    出版社が公式的に回答を出しているということもあって、wakame様をベストアンサーに選ばせていただきました。

    ありがとうございました。

    キャンセル

0

手元に本が無いので正確な事は分かりませんが、、、

f = urlopen('https://gihyo.jp.dp')

このようなアドレス (gihyo.jp.dp) はありません。そのためのエラーですね。

urllib.error.HTTPError: HTTP Error 403: Forbidden

実在のアドレスを使えば、問題無いと思いますが、その後で何をしようとしているか不明なので、適当なアドレスだと問題になるかも。

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2018/07/28 19:12

    「実行結果」を見る限り、これは単に質問文を書き間違えているだけですね。

    キャンセル

  • 2018/07/28 22:04

    >pepperleaf様
    コメントありがとうございます。KojiDoi様からご指摘の通り、文中の間違いとなります。
    アドレスを「https://gihyo.jp/dp」に修正しました。

    お手数おかけしました。

    キャンセル

  • 2018/07/28 22:05

    >KojiDoi様
    フォローありがとうございます。
    間違いに気づきました。

    キャンセル

15分調べてもわからないことは、teratailで質問しよう!

  • ただいまの回答率 90.52%
  • 質問をまとめることで、思考を整理して素早く解決
  • テンプレート機能で、簡単に質問をまとめられる

関連した質問

同じタグがついた質問を見る

  • Python

    7953questions

    Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

  • スクレイピング

    330questions