質問するログイン新規登録

回答編集履歴

3

追記

2018/08/28 08:42

投稿

umyu
umyu

スコア5846

answer CHANGED
@@ -78,17 +78,24 @@
78
78
  例外の発生が許容されないのならばtry~exceptを行うようなコードにしてください。
79
79
  python 再試行、python リトライで検索するといろいろHITするかと。
80
80
 
81
+ ---
82
+
81
- 1,requests.getの戻り値のレスポンスオブジェクトに対して、
83
+ 1,requests.getの戻り値のレスポンスオブジェクトに対して以下のどちらかの処理をいれると
84
+ 質問文のエラーより前に問題が発見できるかと。
85
+
82
- 1-a,`statuscode`をみる or raise_for_status()
86
+ 1-a,`try~except`で囲んで、`raise_for_status()`呼び出す。 (回答者:推奨コード)
83
87
  ```Python
88
+ try:
84
- res = requests.get(url, params)
89
+ res = requests.get(url, params)
85
- print(res.status_code)
90
+ res.raise_for_status()
91
+ except Exception as ex:
92
+ LOGGER.exception(ex)
86
93
  ```
87
94
 
88
- 1-b,raise_for_status()呼び出す
95
+ 1-b,HTTPステータスコード:`statuscode`みる
89
96
  ```Python
90
97
  res = requests.get(url, params)
91
- res.raise_for_status()
98
+ print(res.status_code)
92
99
  ```
93
100
 
94
101
  2,リトライ処理を行う。

2

追記

2018/08/28 08:42

投稿

umyu
umyu

スコア5846

answer CHANGED
@@ -11,7 +11,7 @@
11
11
 
12
12
  サンプルコードです。(未テスト)
13
13
 
14
- ````Python
14
+ ```Python
15
15
  from logging import getLogger, StreamHandler, Formatter, DEBUG
16
16
  import requests
17
17
  import shutil
@@ -61,4 +61,37 @@
61
61
  あと、無料枠の場合は1日のクエリ制限100もあります。
62
62
  参考:[Yahoo、Bing、Googleでの画像収集事情まとめ](https://qiita.com/ysdyt/items/565a0bf3228e12a2c503#%E3%81%BE%E3%81%A8%E3%82%81)
63
63
 
64
- 大手の検索エンジンは画像検索に関しては制限がきついです。
64
+ 大手の検索エンジンは画像検索に関しては制限がきついです。
65
+
66
+ ---
67
+
68
+ 回答の要旨を上手く伝えきれていないので、補足説明。
69
+ 質問文のコードは**numを考慮していなく1クエリ100件を上手く処理できないコード**です。
70
+ > "num" : 10 #1回の検索における取得件数(デフォルトで10件)
71
+
72
+ [wandbox](https://wandbox.org/permlink/Z1kM73tqhyzmvCIL)
73
+ 私の回答文のコードを参考に10クエリ*10件の総数:100に変更してみてくださいな。
74
+
75
+ ---
76
+
77
+ スクレイピングは相手サイトの都合にかなり影響されます。
78
+ 例外の発生が許容されないのならばtry~exceptを行うようなコードにしてください。
79
+ python 再試行、python リトライで検索するといろいろHITするかと。
80
+
81
+ 1,requests.getの戻り値のレスポンスオブジェクトに対して、
82
+ 1-a,`statuscode`をみる or raise_for_status()
83
+ ```Python
84
+ res = requests.get(url, params)
85
+ print(res.status_code)
86
+ ```
87
+
88
+ 1-b,raise_for_status()を呼び出す。
89
+ ```Python
90
+ res = requests.get(url, params)
91
+ res.raise_for_status()
92
+ ```
93
+
94
+ 2,リトライ処理を行う。
95
+ `requests`を使っているならば、`from urllib3.util.retry import Retry`
96
+ 参考:[KeyError の再試行について](https://teratail.com/questions/118609)
97
+ 3,あと相手サーバーの負荷軽減のために適度なsleepを入れてくださいな。

1

追記

2018/08/28 08:36

投稿

umyu
umyu

スコア5846

answer CHANGED
@@ -30,15 +30,15 @@
30
30
  return res
31
31
 
32
32
  API_PATH = "https://www.googleapis.com/customsearch/v1"
33
+ start_index = 1
33
34
  PARAMS = {
34
35
  "cx" : "xxxx:xxxx", #検索エンジンID
35
36
  "key": "xxxxxxxxx", #APIキー
36
37
  "q" : "映画", #検索ワード
37
38
  "searchType": "image", #検索タイプ
38
- "start" : 1, #開始インデックス
39
+ "start" : start_index, #開始インデックス
39
40
  "num" : 10 #1回の検索における取得件数(デフォルトで10件)
40
41
  }
41
- start_index = 1
42
42
  for _ in range(10): # 10 * 10 = 100
43
43
  res = fetch(API_PATH, params)
44
44
  LOGGER.info('#' * 80)