質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

URL

URL(ユニフォームリソースロケータ)とは、インターネット上のリソース(Webページや電子メールの宛先等)を特定するための形式的な記号の並びの事を言う。

Q&A

1回答

1038閲覧

urllibも用いた画像取得のurl, header指定周りのバグ解決

Uga

総合スコア10

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

URL

URL(ユニフォームリソースロケータ)とは、インターネット上のリソース(Webページや電子メールの宛先等)を特定するための形式的な記号の並びの事を言う。

0グッド

0クリップ

投稿2020/08/02 02:07

前提・実現したいこと

python3のurllibを使ってgoogle画像の保存

発生している問題・エラーメッセージ

フォルダは作られるが, 画像が保存されていない.

実行した結果, 以下のような出力のみでした.

エラーが0件中、0件発生しました。
エラーが0件中、0件発生しました。
エラーが0件中、0件発生しました。
エラーが0件中、0件発生しました。
エラーが0件中、0件発生しました。

import cv2, os, re,requests, time, bs4 from urllib.request import urlretrieve from urllib import request as req from urllib import error,parse from PIL import Image import numpy as np import glob members = ["(具体的な名前)","(具体的な名前)","(具体的な名前)","(具体的な名前)","(具体的な名前)"] img_dir = "./Pictures/" for member in members: dir_path = img_dir + member if not os.path.exists(dir_path): os.makedirs(dir_path) urlKeyword = parse.quote(member) url = 'https://www.google.com/search?hl=jp&q=' + urlKeyword + '&btnG=Google+Search&tbs=0&safe=off&tbm=isch' headers = {"User-Agent": "Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:47.0) Gecko/20100101 Firefox/47.0",} request = req.Request(url=url, headers=headers) page = req.urlopen(request) html = page.read().decode('utf-8') html = bs4.BeautifulSoup(html, "html.parser") elems = html.select('.rg_meta.notranslate') counter = 0 error_counter = 0 for ele in elems: ele = ele.contents[0].replace('"','').split(',') eledict = dict() for e in ele: num = e.find(':') eledict[e[0:num]] = e[num+1:] imageURL = eledict['ou'] try: file_path = dir_path + "/" + str(counter)+".jpg" urlretrieve(imageURL, file_path) counter += 1 except Exception as e: error_counter += 1 if counter == 1: print(member+"のダウンロードを開始します") if counter==200: break print("エラーが{}件中、{}件発生しました。".format(counter, error_counter))

試したこと

urlは無事に生成されているようですが,
調べたところelemsの要素が空のようでした.10~20行目に原因があるかと思いますが, わかりません.
headerは参考にしたサイトのままにしたのですが使用しているOSによって変わったりするものなのでしょうか.

補足情報(FW/ツールのバージョンなど)

macOS 10.13.6
jupyter notebook python3

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

meg_

2020/08/02 02:23

「調べたところelemsの要素が空のようでした.」とありますが、実際にはどんな値になっているのですか?
Uga

2020/08/02 02:29

二つ目のfor節の直前にprint(elems)そ挿入したところ[]が帰ってきました. ですので, for ele in elems節は実際には実行されていないかと思います.
meg_

2020/08/02 02:39

変数htmlの中に検索したい要素は含まれていますか?なければ検索できません。 googleはスクレイピング禁止かと思いますので具体的には回答できませんが。
guest

回答1

0

members=[]に何が格納されているのかはわかりませんが
['犬','猫','さる','虎','キリン']と適当に代入し、htmlを覗いてみましたが
.rg_meta .notranslateといったクラスでは画像を抽出できる様には思えませんでした。

抽出の対象とするクラスを改めてみてはいかがでしょうか。
またgoogle画像検索は使用上、対象の画像を1度クリックしなければ正規な画像のリンクは出現せず
そのまま埋め込まれた画像を抽出しようとしてもサイズの小さいサムネイル画像しか抽出は出来ないと思います。

もちろんelems = html.select()で親div等を取り出し、それぞれ画像をクリックした際に生成される「**https://www.google.com/imgres?imageurl=...**」のリンクを作り出し、ループ文で元画像を取り出す事も可能かとは思います。

投稿2020/08/02 07:43

nto

総合スコア1438

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

まだベストアンサーが選ばれていません

会員登録して回答してみよう

アカウントをお持ちの方は

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問