🎄teratailクリスマスプレゼントキャンペーン2024🎄』開催中!

\teratail特別グッズやAmazonギフトカード最大2,000円分が当たる!/

詳細はこちら
Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

機械学習

機械学習は、データからパターンを自動的に発見し、そこから知能的な判断を下すためのコンピューターアルゴリズムを指します。人工知能における課題のひとつです。

API

APIはApplication Programming Interfaceの略です。APIはプログラムにリクエストされるサービスがどのように動作するかを、デベロッパーが定めたものです。

Q&A

解決済

1回答

1176閲覧

Bing search APIとpythonのrequestsを用いた画像自動取得で、保存先フォルダへの画像の書き出しに失敗してしまいます

mannaka

総合スコア2

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

機械学習

機械学習は、データからパターンを自動的に発見し、そこから知能的な判断を下すためのコンピューターアルゴリズムを指します。人工知能における課題のひとつです。

API

APIはApplication Programming Interfaceの略です。APIはプログラムにリクエストされるサービスがどのように動作するかを、デベロッパーが定めたものです。

0グッド

0クリップ

投稿2021/03/15 03:35

機械学習による画像認識をやってみようと、素材とする画像の自動収集に取り組んでいます。
Bing SearchのAPIを取得し、以下のページのコードを参考に画像を自動でダウンロードしようとしたのですが、
画像の保存先フォルダへの書き出しで失敗しているようで、正しく保存ができていない状況です。
次に記載しているコードは以下のページに掲載されているものをほぼそのまま使用しています。
https://qiita.com/m-shimao/items/74ee036fff8fac01566e

実行したいことはbing search APIを使い、「猫」というキーワードで検索してOUTPUTで指定したディレクトリに画像を保存というところまでです。
OSはwindowsで、コードはjupyter notebookを使って実行しています。

python3

1from requests import exceptions 2import argparse 3import requests 4import cv2 5import os 6 7API_KEY = "Bing SearchのAPIキー" 8MAX_RESULTS = 100 9GROUP_SIZE = 50 10 11# エンドポイントURL 12URL = "https://api.bing.microsoft.com/v7.0/images/search" 13OUTPUT = 'C:\Users\ユーザー名\OneDrive\ドキュメント\機械学習\画像データ\猫' 14 15if not os.path.isdir(OUTPUT): 16 os.mkdir(OUTPUT) 17 18EXCEPTIONS = set([IOError, FileNotFoundError, 19 exceptions.RequestException, exceptions.HTTPError, 20 exceptions.ConnectionError, exceptions.Timeout]) 21 22term = '猫' 23headers = {"Ocp-Apim-Subscription-Key" : API_KEY} 24params = {"q": term, "offset": 0, "count": GROUP_SIZE, "imageType":"Photo", "color":"ColorOnly"} 25 26# make the search 27print("[INFO] searching Bing API for '{}'".format(term)) 28search = requests.get(URL, headers=headers, params=params) 29search.raise_for_status() 30 31# grab the results from the search, including the total number of 32# estimated results returned by the Bing API 33results = search.json() 34estNumResults = min(results["totalEstimatedMatches"], MAX_RESULTS) 35print("[INFO] {} total results for '{}'".format(estNumResults, 36 term)) 37 38# initialize the total number of images downloaded thus far 39total = 0 40 41# loop over the estimated number of results in `GROUP_SIZE` groups 42for offset in range(0, estNumResults, GROUP_SIZE): 43 # update the search parameters using the current offset, then 44 # make the request to fetch the results 45 print("[INFO] making request for group {}-{} of {}...".format( 46 offset, offset + GROUP_SIZE, estNumResults)) 47 params["offset"] = offset 48 search = requests.get(URL, headers=headers, params=params) 49 search.raise_for_status() 50 results = search.json() 51 print("[INFO] saving images for group {}-{} of {}...".format( 52 offset, offset + GROUP_SIZE, estNumResults)) 53 # loop over the results 54 for v in results["value"]: 55 # try to download the image 56 try: 57 # make a request to download the image 58 print("[INFO] fetching: {}".format(v["contentUrl"])) 59 r = requests.get(v["contentUrl"], timeout=30) 60 61 # build the path to the output image 62 ext = v["contentUrl"][v["contentUrl"].rfind("."):v["contentUrl"].rfind("?") if v["contentUrl"].rfind("?") > 0 else None] 63 p = os.path.sep.join([OUTPUT, "{}{}".format( 64 str(total).zfill(8), ext)]) 65 66 # write the image to disk 67 f = open(p, "wb") 68 f.write(r.content) 69 f.close() 70 71 # catch any errors that would not unable us to download the 72 # image 73 except Exception as e: 74 # check to see if our exception is in our list of 75 # exceptions to check for 76 if type(e) in EXCEPTIONS: 77 print("[INFO] skipping: {}".format(v["contentUrl"])) 78 continue 79 # try to load the image from disk 80 image = cv2.imread(p) 81 82 # if the image is `None` then we could not properly load the 83 # image from disk (so it should be ignored) 84 if image is None: 85 print("[INFO] deleting: {}".format(p)) 86 os.remove(p) 87 continue 88 89 # update the counter 90 total += 1 91

このコードを実行すると、以下のような形で終了します。

[INFO] searching Bing API for '猫'
[INFO] 100 total results for '猫'
[INFO] making request for group 0-50 of 100...
[INFO] saving images for group 0-50 of 100...
[INFO] fetching: https://www.atpress.ne.jp/releases/83021/img_83021_2.jpg
[INFO] deleting: C:\Users\ユーザー名\OneDrive\ドキュメント\機械学習\画像データ\猫\00000000.jpg
[INFO] fetching: http://wallpaper.1-jp.com/wallpaper/19/151wallpaper-iphone6.jpg
[INFO] deleting: C:\Users\ユーザー名\OneDrive\ドキュメント\機械学習\画像データ\猫\00000000.jpg
…以降50回分繰り返し

この**「保存」→「画像が'None'だったため削除」**が検索回数分繰り返され、結局画像が一つも保存されないまま完了してしまいます。
画像のURLには正しく到達しており、保存先のパス名は問題なく作られているようなので、保存の際になぜ失敗してしまうかの対策がわからず困っております。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

ベストアンサー

Bing search APIは有料サービスで、12ヶ月の無料アカウントもあるようですが、どちらを使っているのでしょうか。

以下を試して結果を教えてください。

python

1# if image is None: 2# print("[INFO] deleting: {}".format(p)) 3# os.remove(p) 4# continue

というように削除する部分をコメントにして実行。

ファイルは消えずに残っているはずですので、それを画像ソフトかブラウザで表示してみる。

投稿2021/03/15 04:25

編集2021/03/15 05:04
ppaul

総合スコア24670

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

mannaka

2021/03/15 04:32

コメントありがとうございます。APIは無料試用版、価格レベルはFreeのものを使用しています。
ppaul

2021/03/15 04:41

何度もやって、月間の制限を超えているということはないですか
mannaka

2021/03/15 04:56

確かにこの状態を解消しようと何度も実行はしてしまったのですが、 APIキーを取得してから初の使用がこちらで、また最初に接続に成功した時点でこの状態でしたので、その可能性は考えておりませんでした。
mannaka

2021/03/15 05:17

ありがとうございます!アドバイスいただいた通り、削除に関するコードをコメントアウトして実行しますと、100枚分画像が指定したフォルダに保存できました。 画像が保存できていたものの、それが画像と認識されずに消されてしまっていたようです。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.36%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問