BeautifulSoup4で特定の画像をDLしたい。

BeautifulSoup4で特定の画像を取得したいです。
特定の画像はURLで判別することができるのですが今の感じだと関係のない画像もDLしてしまいます。
for文でページ遷移してタグを取得して以下のURLが得られているのですが

http://abc.com/files/14/diary/moblog/201706/mobWMuO11.jpg
http://abc.com/files/14/diary/moblog/201706/mobWMuO11.jpg
http://abc.com/files/14/diary/moblog/201706/mobJQTZjY.jpg
http://abc.com/files/14/diary/moblog/201706/mobJQTZjY.jpg

http://abc.com/images/14/26e/39b9ffc42a1ecc656e6c477607828/200_200_102400.jpg
http://abc.com/images/14/26e/39b9ffc42a1ecc656e6c477607828/200_200_102400.jpg
http://abc.com/images/14/0cc/b96bd60c3ee8b9d2670aae2604879/200_200_102400.jpg

このURLの中でabc.com/imagesに続くjpgファイルのみDLしたいのですが
abc.com/filesを除外するもしくはabc.com/imagesを検出する方法はありませんか？？
除外パターンが載せているだけではないので、できるだけ後者の方が助かります。

行動規範の内容に同意します

回答1件

ベストアンサー

python
1from urllib.parse import urlparse
2
3
4urls = '''
5http://abc.com/files/14/diary/moblog/201706/mobWMuO11.jpg
6http://abc.com/files/14/diary/moblog/201706/mobWMuO11.jpg
7http://abc.com/files/14/diary/moblog/201706/mobJQTZjY.jpg
8http://abc.com/files/14/diary/moblog/201706/mobJQTZjY.jpg
9http://abc.com/images/14/26e/39b9ffc42a1ecc656e6c477607828/200_200_102400.jpg
10http://abc.com/images/14/26e/39b9ffc42a1ecc656e6c477607828/200_200_102400.jpg
11http://abc.com/images/14/0cc/b96bd60c3ee8b9d2670aae2604879/200_200_102400.jpg
12'''.splitlines()
13
14
15for url in urls:
16    o = urlparse(url)
17    if o.netloc == 'abc.com' and o.path.startswith('/images/'):
18        print(url)

投稿2017/06/06 02:31

YouheiSakurai

総合スコア6142

YouheiSakurai

2017/06/06 02:33

URLをparseした結果を元にnetlocとpathで条件分岐するところがキモです。

kaitokimura

2017/06/06 02:49

ありがとうございます。ちなみに http://www.keyakizaka46.com/s/k46o/diary/member/list?ima=0000&ct=02 このようなブログの画像を収集したいのですがとても時間がかかってしまいます。プログラムを起動し２時間ちょっと放置して４００枚程度の画像しか集まらなかったのですがスクレイピングしていくとこんなものなのでしょうか？？それともプログラムに問題がありそうですか？？

YouheiSakurai

2017/06/06 03:56

スクレイピングはあまりやらないので普通がちょっとわからないです。でも並列化による高速化はある程度可能だと思います。以下を参考にしてみてください。 https://teratail.com/questions/75161 でも高速化するとそれだけサーバへの負荷になる事には留意して気をつける様にしてください。

kaitokimura

2017/06/06 04:37

参考にさせていただきます！またよろしくお願いいたします！回答していただいてありがとうございました。

行動規範の内容に同意します