回答編集履歴

追記

2018/08/28 08:42

投稿

umyu

スコア5846

answer CHANGED Viewed

@@ -78,17 +78,24 @@
 例外の発生が許容されないのならばtry～exceptを行うようなコードにしてください。
 python 再試行、python リトライで検索するといろいろHITするかと。
+---
-1,requests.getの戻り値のレスポンスオブジェクトに対して、
+1,requests.getの戻り値のレスポンスオブジェクトに対して以下のどちらかの処理をいれると、
+質問文のエラーより前に問題が発見できるかと。
-1-a,`statuscode`をみる or raise_for_status()
+1-a,`try～except`で囲んで、`raise_for_status()`を呼び出す。 (回答者:推奨コード)
 ```Python
+    try:
-    res = requests.get(url, params)
+        res = requests.get(url, params)
-    print(res.status_code)
+        res.raise_for_status()
+    except Exception as ex:
+        LOGGER.exception(ex)
 ```
-1-b,raise_for_status()を呼び出す。
+1-b,HTTPステータスコード:`statuscode`をみる。
 ```Python
     res = requests.get(url, params)
-    res.raise_for_status()
+    print(res.status_code)
 ```
 2,リトライ処理を行う。

追記

2018/08/28 08:42

投稿

umyu

スコア5846

answer CHANGED Viewed

@@ -11,7 +11,7 @@
 サンプルコードです。(未テスト)
-````Python
+```Python
 from logging import getLogger, StreamHandler, Formatter, DEBUG
 import requests
 import shutil
@@ -61,4 +61,37 @@
 あと、無料枠の場合は1日のクエリ制限100もあります。
 参考:[Yahoo、Bing、Googleでの画像収集事情まとめ](https://qiita.com/ysdyt/items/565a0bf3228e12a2c503#%E3%81%BE%E3%81%A8%E3%82%81)
-大手の検索エンジンは画像検索に関しては制限がきついです。
+大手の検索エンジンは画像検索に関しては制限がきついです。
+---
+回答の要旨を上手く伝えきれていないので、補足説明。
+質問文のコードは**numを考慮していなく1クエリ100件を上手く処理できないコード**です。
+> "num" : 10   #1回の検索における取得件数(デフォルトで10件)
+[wandbox](https://wandbox.org/permlink/Z1kM73tqhyzmvCIL)
+私の回答文のコードを参考に10クエリ*10件の総数:100に変更してみてくださいな。
+---
+スクレイピングは相手サイトの都合にかなり影響されます。
+例外の発生が許容されないのならばtry～exceptを行うようなコードにしてください。
+python 再試行、python リトライで検索するといろいろHITするかと。
+1,requests.getの戻り値のレスポンスオブジェクトに対して、
+1-a,`statuscode`をみる or raise_for_status()
+```Python
+    res = requests.get(url, params)
+    print(res.status_code)
+```
+1-b,raise_for_status()を呼び出す。
+```Python
+    res = requests.get(url, params)
+    res.raise_for_status()
+```
+2,リトライ処理を行う。
+`requests`を使っているならば、`from urllib3.util.retry import Retry`
+参考:[KeyError の再試行について](https://teratail.com/questions/118609)
+3,あと相手サーバーの負荷軽減のために適度なsleepを入れてくださいな。

追記

2018/08/28 08:36

投稿

umyu

スコア5846

answer CHANGED Viewed

@@ -30,15 +30,15 @@
     return res
 API_PATH    = "https://www.googleapis.com/customsearch/v1"
+start_index = 1
 PARAMS = {
   "cx" : "xxxx:xxxx", #検索エンジンID
   "key": "xxxxxxxxx", #APIキー
   "q"  : "映画", #検索ワード
   "searchType": "image", #検索タイプ
-  "start" : 1, #開始インデックス
+  "start" : start_index, #開始インデックス
   "num" : 10   #1回の検索における取得件数(デフォルトで10件)
 }
-start_index = 1
 for _ in range(10): # 10 * 10 = 100
   res = fetch(API_PATH, params)
   LOGGER.info('#' * 80)