回答編集履歴
3
追記
answer
CHANGED
@@ -78,17 +78,24 @@
|
|
78
78
|
例外の発生が許容されないのならばtry~exceptを行うようなコードにしてください。
|
79
79
|
python 再試行、python リトライで検索するといろいろHITするかと。
|
80
80
|
|
81
|
+
---
|
82
|
+
|
81
|
-
1,requests.getの戻り値のレスポンスオブジェクトに対して、
|
83
|
+
1,requests.getの戻り値のレスポンスオブジェクトに対して以下のどちらかの処理をいれると、
|
84
|
+
質問文のエラーより前に問題が発見できるかと。
|
85
|
+
|
82
|
-
1-a,`
|
86
|
+
1-a,`try~except`で囲んで、`raise_for_status()`を呼び出す。 (回答者:推奨コード)
|
83
87
|
```Python
|
88
|
+
try:
|
84
|
-
|
89
|
+
res = requests.get(url, params)
|
85
|
-
|
90
|
+
res.raise_for_status()
|
91
|
+
except Exception as ex:
|
92
|
+
LOGGER.exception(ex)
|
86
93
|
```
|
87
94
|
|
88
|
-
1-b,
|
95
|
+
1-b,HTTPステータスコード:`statuscode`をみる。
|
89
96
|
```Python
|
90
97
|
res = requests.get(url, params)
|
91
|
-
res.
|
98
|
+
print(res.status_code)
|
92
99
|
```
|
93
100
|
|
94
101
|
2,リトライ処理を行う。
|
2
追記
answer
CHANGED
@@ -11,7 +11,7 @@
|
|
11
11
|
|
12
12
|
サンプルコードです。(未テスト)
|
13
13
|
|
14
|
-
```
|
14
|
+
```Python
|
15
15
|
from logging import getLogger, StreamHandler, Formatter, DEBUG
|
16
16
|
import requests
|
17
17
|
import shutil
|
@@ -61,4 +61,37 @@
|
|
61
61
|
あと、無料枠の場合は1日のクエリ制限100もあります。
|
62
62
|
参考:[Yahoo、Bing、Googleでの画像収集事情まとめ](https://qiita.com/ysdyt/items/565a0bf3228e12a2c503#%E3%81%BE%E3%81%A8%E3%82%81)
|
63
63
|
|
64
|
-
大手の検索エンジンは画像検索に関しては制限がきついです。
|
64
|
+
大手の検索エンジンは画像検索に関しては制限がきついです。
|
65
|
+
|
66
|
+
---
|
67
|
+
|
68
|
+
回答の要旨を上手く伝えきれていないので、補足説明。
|
69
|
+
質問文のコードは**numを考慮していなく1クエリ100件を上手く処理できないコード**です。
|
70
|
+
> "num" : 10 #1回の検索における取得件数(デフォルトで10件)
|
71
|
+
|
72
|
+
[wandbox](https://wandbox.org/permlink/Z1kM73tqhyzmvCIL)
|
73
|
+
私の回答文のコードを参考に10クエリ*10件の総数:100に変更してみてくださいな。
|
74
|
+
|
75
|
+
---
|
76
|
+
|
77
|
+
スクレイピングは相手サイトの都合にかなり影響されます。
|
78
|
+
例外の発生が許容されないのならばtry~exceptを行うようなコードにしてください。
|
79
|
+
python 再試行、python リトライで検索するといろいろHITするかと。
|
80
|
+
|
81
|
+
1,requests.getの戻り値のレスポンスオブジェクトに対して、
|
82
|
+
1-a,`statuscode`をみる or raise_for_status()
|
83
|
+
```Python
|
84
|
+
res = requests.get(url, params)
|
85
|
+
print(res.status_code)
|
86
|
+
```
|
87
|
+
|
88
|
+
1-b,raise_for_status()を呼び出す。
|
89
|
+
```Python
|
90
|
+
res = requests.get(url, params)
|
91
|
+
res.raise_for_status()
|
92
|
+
```
|
93
|
+
|
94
|
+
2,リトライ処理を行う。
|
95
|
+
`requests`を使っているならば、`from urllib3.util.retry import Retry`
|
96
|
+
参考:[KeyError の再試行について](https://teratail.com/questions/118609)
|
97
|
+
3,あと相手サーバーの負荷軽減のために適度なsleepを入れてくださいな。
|
1
追記
answer
CHANGED
@@ -30,15 +30,15 @@
|
|
30
30
|
return res
|
31
31
|
|
32
32
|
API_PATH = "https://www.googleapis.com/customsearch/v1"
|
33
|
+
start_index = 1
|
33
34
|
PARAMS = {
|
34
35
|
"cx" : "xxxx:xxxx", #検索エンジンID
|
35
36
|
"key": "xxxxxxxxx", #APIキー
|
36
37
|
"q" : "映画", #検索ワード
|
37
38
|
"searchType": "image", #検索タイプ
|
38
|
-
"start" :
|
39
|
+
"start" : start_index, #開始インデックス
|
39
40
|
"num" : 10 #1回の検索における取得件数(デフォルトで10件)
|
40
41
|
}
|
41
|
-
start_index = 1
|
42
42
|
for _ in range(10): # 10 * 10 = 100
|
43
43
|
res = fetch(API_PATH, params)
|
44
44
|
LOGGER.info('#' * 80)
|