回答率: 85.35%

質問するログイン新規登録

質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう！

新規登録して質問してみよう

ただいま回答率: 85.35%

トップ Python 3.xに関する質問

Q&A

1回答

1118閲覧

urllibも用いた画像取得のurl, header指定周りのバグ解決

総合スコア10

0グッド

0クリップ

投稿2020/08/02 02:07

0

0

前提・実現したいこと

python3のurllibを使ってgoogle画像の保存

発生している問題・エラーメッセージ

フォルダは作られるが, 画像が保存されていない.

実行した結果, 以下のような出力のみでした.

エラーが0件中、0件発生しました。
エラーが0件中、0件発生しました。
エラーが0件中、0件発生しました。
エラーが0件中、0件発生しました。
エラーが0件中、0件発生しました。

import cv2, os, re,requests, time, bs4
from urllib.request import urlretrieve
from urllib import request as req
from urllib import error,parse
from PIL import Image
import numpy as np
import glob

members = ["(具体的な名前)","(具体的な名前)","(具体的な名前)","(具体的な名前)","(具体的な名前)"]

img_dir = "./Pictures/"

for member in members:
    dir_path = img_dir + member
    if not os.path.exists(dir_path):
        os.makedirs(dir_path)
 
    urlKeyword = parse.quote(member)
    url = 'https://www.google.com/search?hl=jp&q=' + urlKeyword + '&btnG=Google+Search&tbs=0&safe=off&tbm=isch'
    
    headers = {"User-Agent": "Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:47.0) Gecko/20100101 Firefox/47.0",}
    request = req.Request(url=url, headers=headers)
    page = req.urlopen(request)
 
    html = page.read().decode('utf-8')
    html = bs4.BeautifulSoup(html, "html.parser")
    elems = html.select('.rg_meta.notranslate')
    counter = 0
    error_counter = 0
    
    for ele in elems:
        ele = ele.contents[0].replace('"','').split(',')
        eledict = dict()
        for e in ele:
            num = e.find(':')
            eledict[e[0:num]] = e[num+1:]
            imageURL = eledict['ou']
        try:
            file_path = dir_path + "/" + str(counter)+".jpg"
            urlretrieve(imageURL, file_path)
            counter += 1        
        except Exception as e:
            error_counter += 1
        if counter == 1:
            print(member+"のダウンロードを開始します")
        if counter==200:
            break
    print("エラーが{}件中、{}件発生しました。".format(counter, error_counter))

試したこと

urlは無事に生成されているようですが,
調べたところelemsの要素が空のようでした.10~20行目に原因があるかと思いますが, わかりません.
headerは参考にしたサイトのままにしたのですが使用しているOSによって変わったりするものなのでしょうか.

補足情報（FW/ツールのバージョンなど）

macOS 10.13.6
jupyter notebook python3

2020/08/02 02:23

「調べたところelemsの要素が空のようでした.」とありますが、実際にはどんな値になっているのですか？

2020/08/02 02:29

二つ目のfor節の直前にprint(elems)そ挿入したところ[]が帰ってきました. ですので, for ele in elems節は実際には実行されていないかと思います.

2020/08/02 02:39

変数htmlの中に検索したい要素は含まれていますか？なければ検索できません。 googleはスクレイピング禁止かと思いますので具体的には回答できませんが。

行動規範の内容に同意します

回答1件

0

members=[]に何が格納されているのかはわかりませんが
['犬','猫','さる','虎','キリン']と適当に代入し、htmlを覗いてみましたが
.rg_meta .notranslateといったクラスでは画像を抽出できる様には思えませんでした。

抽出の対象とするクラスを改めてみてはいかがでしょうか。
またgoogle画像検索は使用上、対象の画像を1度クリックしなければ正規な画像のリンクは出現せず
そのまま埋め込まれた画像を抽出しようとしてもサイズの小さいサムネイル画像しか抽出は出来ないと思います。

もちろんelems = html.select()で親div等を取り出し、それぞれ画像をクリックした際に生成される「**https://www.google.com/imgres?imageurl=...**」のリンクを作り出し、ループ文で元画像を取り出す事も可能かとは思います。

投稿2020/08/02 07:43

総合スコア1438

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

まだベストアンサーが選ばれていません

会員登録して回答してみよう

アカウントをお持ちの方は

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.35%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

関連した質問

トップ Python 3.xに関する質問

urllibも用いた画像取得のurl, header指定周りのバグ解決