サイトから画像をスレイピングしたいのですが対象のサイトはgoogle chromeで見たところ、imgタグのsrc属性に.jpgなのど拡張子の要素がありません。どうやら画像のリンクがあるようです。
そこでimgダグのsrc属性ないの「http」で始まる文章を正規表現で取得したのですが、pythonの正規表現でうまい取得の仕方はないでしょうか?
imgタグ内のsrc属性内はhttpで始まる文章の後に 空行が入って400pxが書いてあり、また空行を挟んでhttpで始まる文章が繰り返されています
例:http~ 400px http~ 200px http~ 300px http~
このような文章でimgタグのsrc属性内のhttpの文章のみ取得する正規表現がどのように書けばいいのでしょうか?
下の正規表現だとうまくいかないようなので、ご教授お願いします
#該当正規表現
python
1for link in soup.find_all('img'): 2 images.append(urljoin(URL, link.get('src'=re.compile('^http.*$'))))
# ソースコード
python
1import requests 2from requests.compat import urljoin 3import re 4 5 6URL = 'http://www.asos.com/search/dress?page=1&q=dress' # URL入力 7images = [] # 画像リストの配列 8 9soup = BeautifulSoup(requests.get(URL).content,'lxml') # bsでURL内を解析 10for link in soup.find_all('img'): 11 images.append(urljoin(URL, link.get('src'=re.compile('^http.*$'))))

回答1件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。