質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.35%
Windows 10

Windows 10は、マイクロソフト社がリリースしたOSです。Modern UIを標準画面にした8.1から、10では再びデスクトップ主体に戻され、UIも変更されています。PCやスマホ、タブレットなど様々なデバイスに幅広く対応していることが特徴です。

スクレイピング

スクレイピングとは、公開されているWebサイトからページ内の情報を抽出する技術です。

コマンドプロンプト

コマンドプロンプト(cmd.exe)はMicrosoftによって提供されているコマンドラインインタプリタです。OS/2・Windows CE・Windows NTで使用可能です。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

Q&A

解決済

1回答

1317閲覧

【Python】画像スクレピングのタグ取得

pythonbegginer

総合スコア25

Windows 10

Windows 10は、マイクロソフト社がリリースしたOSです。Modern UIを標準画面にした8.1から、10では再びデスクトップ主体に戻され、UIも変更されています。PCやスマホ、タブレットなど様々なデバイスに幅広く対応していることが特徴です。

スクレイピング

スクレイピングとは、公開されているWebサイトからページ内の情報を抽出する技術です。

コマンドプロンプト

コマンドプロンプト(cmd.exe)はMicrosoftによって提供されているコマンドラインインタプリタです。OS/2・Windows CE・Windows NTで使用可能です。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

0グッド

0クリップ

投稿2020/07/10 08:30

編集2020/07/13 03:49

Python超超初心者で、プログラミングも勉強始めたばかりです。
検索してもわからなく、つまづいているので詳しい方教えて下さいm(__)m

※Windows10のコマンドプロンプトから実行しています。

★やりたいこと★ 

色んな画像を集める練習をしてみています。画像のリンクタグが多分うまくできてなくて教えてほしいです。
今はホットペッパーのこの動くページ?の写真を取得したいです。以下のコードを使用していますが、
エラー自体は出ないのですが、何の画像も取得できません。

イメージ説明
多分真ん中らへんにあるここのタグが違うのかな?と思うのですが、色々試してみてもできず詳しい方ご教授頂けますと大変うれしいです。
'# ②-③.画像リンクのタグをすべて取得
a_list =soup.select('div.mainVisual > jscMainView mainView')

Python

1#●画像ファイルをダウンロードするための準備 2# ①-①.ライブラリをインポート 3import time 4import re 5import requests 6from pathlib import Path 7from bs4 import BeautifulSoup 8# ①-②.出力フォルダを作成 9output_folder = Path('C:\python\img') 10output_folder.mkdir(exist_ok=True) 11# ①-③.スクレイピングしたいURLを設定 12url = 'https://www.hotpepper.jp/strJ001010953/' 13 14# ①-④.画像ページのURLを格納するリストを用意 15linklist = [] 16 17#●検索結果ページから画像のリンクを取り出す 18# ②-①.検索結果ページのhtmlを取得 19html = requests.get(url).text 20# ②-②.検索結果ページのオブジェクトを作成 21soup = BeautifulSoup(html, 'lxml') 22# ②-③.画像リンクのタグをすべて取得 23a_list =soup.select('div.mainVisual > jscMainView mainView') 24 25# 3②-④.画像リンクを1つずつ取り出す 26for a in a_list: 27# ②-⑤.画像ページのURLを抽出 28 link_url = img['src'] 29# ②-⑥.画像ページのURLをリストに追加 30 linklist.append(link_url) 31 #time.sleep(1.0) 32 33 # ③-⑦.画像ファイルの名前を抽出 34 filename = re.search(".*/(.*png|.*jpg)$",link_url) 35 # ③-⑧.保存先のファイルパスを生成 36 save_path = output_folder.joinpath(filename.group(1)) 37 time.sleep(1.0) 38 # ●画像ファイルのURLからデータをダウンロード 39 try: 40 # ④-①.画像ファイルのURLからデータを取得 41 image = requests.get(link_url) 42 # ④-②.保存先のファイルパスにデータを保存 43 open(save_path, 'wb').write(image.content) 44 # ④-③.保存したファイル名を表示 45 print(save_path) 46 time.sleep(1.0) 47 except ValueError: 48 # ④-④.失敗した場合はエラー表示 49 print("ValueError!")

宜しくお願い致します。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

ベストアンサー

スクレイピングをするには、HTMLの知識が必須です。また、要素の指定のためにCSSかXPathの少なくとも一方(出来れば両方)の知識も必要です。

a_list = soup.select('div#mainVisual > .jscMainView.mainView')では?
ただし1つしか無いようですが。

指定方法を見直すべきでは?

投稿2020/07/10 11:01

otn

総合スコア85949

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

pythonbegginer

2020/07/13 02:54

そうですよね。ありがとうございます。少しずつ勉強します。 頂いたタグでもできずもうすこし奮闘してみます。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.35%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問