python：BeautifulSoup４スクレイピングによる「urllib.error.HTTPError: HTTP Error 400: Bad Request」エラーの際の処理について

現在BeautifulSoupを使用してスクレイピングの演習をしております。
for文を使用し、tryとexceptで処理を実行しているのですが、タイトルにあるように、

python
1urllib.error.HTTPError: HTTP Error 400: Bad Request

上記のようなエラーが出るとその時点で処理が終了してしまいます。
robots.txtもきっちりと確認し、time.sleepを用いて、対象サイトに負荷の掛からないようなスクレイピングを心掛けてはいるのですが、前述のエラーはスクレイピンによるサイト側の拒否なのでしょうか？
また、

python
1except urllib.error.HTTPError:
2    pass

などで強制的に処理を継続させてしまうのはあまり良くないのでしょうか？

詳しい方アドバイスお願いします。

行動規範の内容に同意します

回答1件

ベストアンサー

前述のエラーはスクレイピンによるサイト側の拒否なのでしょうか？

可能性としてはありえます。もちろん他の原因もありえます（ありえる可能性は多岐にわたるので書ききれません。ご自身でお調べください）。

などで強制的に処理を継続させてしまうのはあまり良くないのでしょうか？

良し悪しはともかく、400が出たということはそのページの情報は取れていません。サイト運営者によってブロックされているようなケースだと、そのサイトのすべてのページが取れないということになりそうなので、続ける意味はあんまりありません。

モラルの問題としては、スクレイピングが利用規約などで明示的に禁じられていなくて、かつ常識的な頻度でアクセスしていれば、スクレイピング行為一般に関わる懸念以上の問題はないでしょう。

投稿2019/08/11 21:17

hayataka2049

総合スコア30939

退会済みユーザー

2019/08/12 06:34

昨日に引き続きアドバイスありがとうございます。前回のアドバイスをコードに反映し、四苦八苦しながらスクレイピングを実践しています。 HTTP Error 400: Bad Requestの明確な原因は突き止められませんでしたが、若干コードを変える事でエラーは出なくなりました。抜粋にはなりますが、下記に記しておきます。変更前 import urllib.request, urllib.error url = "******************************" html = urllib.request.urlopen(url).read() soup = BeautifulSoup(html, 'html.parser') 変更後 import requests url = "******************************" r = requests.get(url) soup = BeautifulSoup(r.text, 'lxml') 正直現時点では理解よりもとにかく動くコードを書く事ばかりに気を取られております。今後ともよろしくお願いします。

行動規範の内容に同意します