回答率: 85.30%

質問するログイン新規登録

トップスクレイピングに関する質問

Q&A

解決済

1回答

3507閲覧

htmlのimgタグのsrc属性内の「http」で始まる文のみを正規表現で取得する方法

総合スコア303

0グッド

0クリップ

投稿2018/05/10 06:18

編集2018/05/12 09:37

0

0

サイトから画像をスレイピングしたいのですが対象のサイトはgoogle chromeで見たところ、imgタグのsrc属性に.jpgなのど拡張子の要素がありません。どうやら画像のリンクがあるようです。
そこでimgダグのsrc属性ないの「http」で始まる文章を正規表現で取得したのですが、pythonの正規表現でうまい取得の仕方はないでしょうか？

imgタグ内のsrc属性内はhttpで始まる文章の後に　空行が入って400pxが書いてあり、また空行を挟んでhttpで始まる文章が繰り返されています

例：http~ 400px http~ 200px http~ 300px http~

このような文章でimgタグのsrc属性内のhttpの文章のみ取得する正規表現がどのように書けばいいのでしょうか?
下の正規表現だとうまくいかないようなので、ご教授お願いします

＃該当正規表現

python
1for link in soup.find_all('img'):
2    images.append(urljoin(URL, link.get('src'=re.compile('^http.*$'))))

＃　ソースコード

python
1import requests
2from requests.compat import urljoin
3import re
4
5
6URL = 'http://www.asos.com/search/dress?page=1&q=dress' # URL入力
7images = [] # 画像リストの配列
8
9soup = BeautifulSoup(requests.get(URL).content,'lxml') # bsでURL内を解析
10for link in soup.find_all('img'):
11    images.append(urljoin(URL, link.get('src'=re.compile('^http.*$'))))

行動規範の内容に同意します

回答1件

0

ベストアンサー

意図している入力と出力がいまいち掴みきれてないですが、
r'http[^ "]*'でうまくいかないでしょうか。

投稿2018/05/14 09:14

総合スコア88

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.30%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

関連した質問

トップスクレイピングに関する質問

htmlのimgタグのsrc属性内の「http」で始まる文のみを正規表現で取得する方法

関連した質問

同じタグがついた質問を見る

運営からのお知らせ

📢【システムメンテナンスのお知らせ】いつもご利用いただき、誠にありがとうございます。 teratailでは、下記の日時においてシステムメンテナンスを実施いたします。メンテナンス中はサービスをご利用いただけません。ご不便をおかけしますが、あらかじめご了承くださいますようお願いいたします。 ■メンテナンス日時 2025年8月4日（月）20:30 ～ 22:30（予定）なおメンテナンスの進捗状況や完了のご案内は公式X（旧Twitter）でも随時ご案内しますので、ご確認ください。 https://x.com/teratail サービスの品質向上のため、何卒ご理解の程よろしくお願い申し上げます。

過去のお知らせを見る