質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

88.91%

画像スクレイビングがうまくできない

解決済

回答 2

投稿 編集

  • 評価
  • クリップ 0
  • VIEW 193

gurou

score 7

画像スクレイビングを用いて、写真をダウンロードしたいです。
以下のURLを参考にしました。
https://webdirector-blog.com/c_3/p_38/

以下のURL上のコードでは無事に、女性の写真をDLすることができたのですが
URLだけを変更しても、
写真をDLすることができず、ファイルが大量にできただけでした。

どのようにすればよいのでしょうか

import os
import bs4
import time
import random
import urllib.request
from itertools import chain

base_url = 'https://search.yahoo.co.jp/image/search?p=%E7%8A%AC&oq=&ei=UTF-8&save=0'

def fetch_page_urls(int, page):
    page_path = '/CSP/bt/hairCatalogSearch/ladys/condtion/?lengthCd=HL0'+str(int)+'&pn='+str(page)
    html      = urllib.request.urlopen('{}{}'.format(base_url, page_path))
    soup      = bs4.BeautifulSoup(html, 'html.parser')

    columns = soup.find_all('li', class_='dibBL')
    atags = map(lambda column: column.find_all('a', class_='pr'), columns)

    with open('hotpepper_page_urls_type'+str(int)+'.txt', 'w') as f:
        for _ in chain.from_iterable(atags):
            path = _.get('href')
            if not path.startswith('https'):  # Relative path
                path = '{}{}'.format(base_url, path)
            if path[-1] == '/':  # Normalize
                path = path[:-1]
            f.write('{}\n'.format(path))


def fetch_photos(int, page):

    with open('hotpepper_page_urls_type'+str(int)+'.txt') as f:
        # Make directories for saving images
        dirpath = 'photos/inu/lenHL0'+str(int)+'/'+str(page)

        # ファイルの存在確認
        if os.path.isfile('{}/{}'.format(dirpath, '40.jpg')) == True:
            print('すでに取得済')
            return False

        # ディレクトリの存在確認
        if os.path.isdir(dirpath) == False:
            os.makedirs(dirpath)

        num = 1
        #imgのURLを取得
        for url in f:
            html = urllib.request.urlopen(url.strip())
            soup = bs4.BeautifulSoup(html, 'html.parser')

            photos = soup.select("div.pr img.bdImgGray")
            # photos = soup.find_all('div', class_='fl')
            paths = map(lambda path: path.get('src'), photos)

            #フォルダ保存
            for path in paths:
                filepath = '{}/{}'.format(dirpath, str(num)+'.jpg')
                # Download image file
                urllib.request.urlretrieve(path, filepath)
                num = num +1
                # Add random waiting time (4 - 6 sec)
                time.sleep(1 + random.randint(0, 2))


if __name__ == '__main__':
    for type in range(5, 6):
        for page in range(1, 101):
            print('type='+str(type)+'&page='+str(page))
            fetch_page_urls(type, page)
            fetch_photos(type, page)
  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 過去に投稿した質問と同じ内容の質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

回答 2

checkベストアンサー

0

掲題のコードはbase_urlのURLを変えれば利用できるというものではありません。

また、yahoo画像検索はスクレイピング行為が禁止されています。(下記リンク参照)

スクレイピング、クローリングする時の注意点
https://search.yahoo.co.jp/image/robots.txt
robots.txtファイルの使い方や記述方法を解説します

どうしてもコードを動かしてみたく、テストしてみたいといった場合には
対象のソースコードをコピーしてきて変数に代入してあげ
urllibやrequestsなどは使用せずリクエストを送らずにスクレイピングしてください。

import bs4
target = '''

<html lang="ja">
<head>

中略

</body>
</html>'''

soup = bs4.BeautifulSoup(target, 'html.parser')
images = soup.find_all('img', {'alt':'「犬」の画像検索結果'})
for img in images:
    print(img.get('rel').split('|')[0])
    print('='*50)


質問に掲載されていたURLの場合に
対象ページのソースをtargetに代入する事で
上記コードで対象の画像のURLまでを出力できるコードになっています。

しかし、質問者様の目的である

URLにアクセスして画像を保存

という動作はリクエストを送信してしまう動作となり
規約に違反してしまう為コードにはしておりません。
あくまでも参考までに。

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

0

参考リンク先のコードはある特定のサイトでしか動作しません。

どのようにすればよいのでしょうか

まずはあなたがそのサイトに対してスクレイピングすることが許可されているかどうかを確認してください。

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

15分調べてもわからないことは、teratailで質問しよう!

  • ただいまの回答率 88.91%
  • 質問をまとめることで、思考を整理して素早く解決
  • テンプレート機能で、簡単に質問をまとめられる

関連した質問

同じタグがついた質問を見る