機械学習による画像認識をやってみようと、素材とする画像の自動収集に取り組んでいます。
Bing SearchのAPIを取得し、以下のページのコードを参考に画像を自動でダウンロードしようとしたのですが、
画像の保存先フォルダへの書き出しで失敗しているようで、正しく保存ができていない状況です。
次に記載しているコードは以下のページに掲載されているものをほぼそのまま使用しています。
https://qiita.com/m-shimao/items/74ee036fff8fac01566e
実行したいことはbing search APIを使い、「猫」というキーワードで検索してOUTPUTで指定したディレクトリに画像を保存というところまでです。
OSはwindowsで、コードはjupyter notebookを使って実行しています。
python3
1from requests import exceptions 2import argparse 3import requests 4import cv2 5import os 6 7API_KEY = "Bing SearchのAPIキー" 8MAX_RESULTS = 100 9GROUP_SIZE = 50 10 11# エンドポイントURL 12URL = "https://api.bing.microsoft.com/v7.0/images/search" 13OUTPUT = 'C:\Users\ユーザー名\OneDrive\ドキュメント\機械学習\画像データ\猫' 14 15if not os.path.isdir(OUTPUT): 16 os.mkdir(OUTPUT) 17 18EXCEPTIONS = set([IOError, FileNotFoundError, 19 exceptions.RequestException, exceptions.HTTPError, 20 exceptions.ConnectionError, exceptions.Timeout]) 21 22term = '猫' 23headers = {"Ocp-Apim-Subscription-Key" : API_KEY} 24params = {"q": term, "offset": 0, "count": GROUP_SIZE, "imageType":"Photo", "color":"ColorOnly"} 25 26# make the search 27print("[INFO] searching Bing API for '{}'".format(term)) 28search = requests.get(URL, headers=headers, params=params) 29search.raise_for_status() 30 31# grab the results from the search, including the total number of 32# estimated results returned by the Bing API 33results = search.json() 34estNumResults = min(results["totalEstimatedMatches"], MAX_RESULTS) 35print("[INFO] {} total results for '{}'".format(estNumResults, 36 term)) 37 38# initialize the total number of images downloaded thus far 39total = 0 40 41# loop over the estimated number of results in `GROUP_SIZE` groups 42for offset in range(0, estNumResults, GROUP_SIZE): 43 # update the search parameters using the current offset, then 44 # make the request to fetch the results 45 print("[INFO] making request for group {}-{} of {}...".format( 46 offset, offset + GROUP_SIZE, estNumResults)) 47 params["offset"] = offset 48 search = requests.get(URL, headers=headers, params=params) 49 search.raise_for_status() 50 results = search.json() 51 print("[INFO] saving images for group {}-{} of {}...".format( 52 offset, offset + GROUP_SIZE, estNumResults)) 53 # loop over the results 54 for v in results["value"]: 55 # try to download the image 56 try: 57 # make a request to download the image 58 print("[INFO] fetching: {}".format(v["contentUrl"])) 59 r = requests.get(v["contentUrl"], timeout=30) 60 61 # build the path to the output image 62 ext = v["contentUrl"][v["contentUrl"].rfind("."):v["contentUrl"].rfind("?") if v["contentUrl"].rfind("?") > 0 else None] 63 p = os.path.sep.join([OUTPUT, "{}{}".format( 64 str(total).zfill(8), ext)]) 65 66 # write the image to disk 67 f = open(p, "wb") 68 f.write(r.content) 69 f.close() 70 71 # catch any errors that would not unable us to download the 72 # image 73 except Exception as e: 74 # check to see if our exception is in our list of 75 # exceptions to check for 76 if type(e) in EXCEPTIONS: 77 print("[INFO] skipping: {}".format(v["contentUrl"])) 78 continue 79 # try to load the image from disk 80 image = cv2.imread(p) 81 82 # if the image is `None` then we could not properly load the 83 # image from disk (so it should be ignored) 84 if image is None: 85 print("[INFO] deleting: {}".format(p)) 86 os.remove(p) 87 continue 88 89 # update the counter 90 total += 1 91
このコードを実行すると、以下のような形で終了します。
[INFO] searching Bing API for '猫'
[INFO] 100 total results for '猫'
[INFO] making request for group 0-50 of 100...
[INFO] saving images for group 0-50 of 100...
[INFO] fetching: https://www.atpress.ne.jp/releases/83021/img_83021_2.jpg
[INFO] deleting: C:\Users\ユーザー名\OneDrive\ドキュメント\機械学習\画像データ\猫\00000000.jpg
[INFO] fetching: http://wallpaper.1-jp.com/wallpaper/19/151wallpaper-iphone6.jpg
[INFO] deleting: C:\Users\ユーザー名\OneDrive\ドキュメント\機械学習\画像データ\猫\00000000.jpg
…以降50回分繰り返し
この**「保存」→「画像が'None'だったため削除」**が検索回数分繰り返され、結局画像が一つも保存されないまま完了してしまいます。
画像のURLには正しく到達しており、保存先のパス名は問題なく作られているようなので、保存の際になぜ失敗してしまうかの対策がわからず困っております。
回答1件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2021/03/15 04:32
2021/03/15 04:41
2021/03/15 04:56
2021/03/15 05:17