Python　スクレイピング件数が複数にまたがるときの条件分岐

pipでインストールする部分は省きますが、
下記が初心者なりになんとか実行できたコードになります。

コード

import requests
from bs4 import BeautifulSoup
url = 'https://el.e-shops.jp/local/jb/6008/jn/6000523/cn/23109/'
res = requests.get(url)
soup = BeautifulSoup(res.text,'html.parser')
import re
companies = [element.text for element in soup.find_all('a',href=re.compile("^/local/nsh/"))]
list_address = soup.find_all('p', attrs = {'class':'shop_address'})
shop_address = [e.text for e in soup.find_all('p',attrs = {'class':'shop_address'})]
list_tel = soup.find_all('p', attrs = {'class':'shop_tel'})
shop_tel = [e.text for e in soup.find_all('p', attrs = {'class':'shop_tel'})]
import pandas as pd
Coulumn1 = ['社名']
df1 = pd.DataFrame(companies,columns=Coulumn1)
Coulumn2 = ['住所']
df2 = pd.DataFrame(shop_address,columns=Coulumn2)
Coulumn3 = ['TEL']
df3 = pd.DataFrame(shop_tel,columns=Coulumn3)
df4 = df1.join(df2)
df5 = df4.join(df3)
df5

目的は会社名と住所とTELをもれなくExcelに落とし込むことですが、
対処のＵＲＬで熱田区の切削加工だと39件ヒットするので、
ページが2つ以上にまたがります。

個人的な考えでは、
pguiを利用した座標の取得で「加工方法（件数）」のところの件数の数字部分のテキストを読み取って、
例えば、20以上ならスクロールして、次のページボタンをクリックするところを座標で取得する。
20以下なら次の加工方法のボタンの座標を取得してクリックする。
というものです。
スクレイピング自体がサーバーに負荷をかける行為だとは理解しているので
区単位で、特に欲しい加工技術を持った会社一覧（切削加工や金属加工、鉄鋼工業など）を全てまとめて読み取って、
次の区にページを切り替えて
の繰り返しでやるという想定でいます。

もっと別の方法をご存じでしたらご教授お願い致します。

行動規範の内容に同意します

回答1件

ベストアンサー

2ページ目のURLを見てみるとhttps://el.e-shops.jp/local/jb/6008/jn/6000523/cn/23109/2.htmlのように末尾に2.htmlが付いています。別の区の3ページ目も確認すると末尾が3.htmlでした。

ということはbase_urlをhttps://el.e-shops.jp/local/jb/6008/jn/6000523/cn/23109/とすると、2ページ目はbase_url + '2.html'、3ページ目はbase_url + '3.html'……となっているわけです。

そして、最後のページの次のページ（例えばhttps://el.e-shops.jp/local/jb/6008/jn/6000523/cn/23109/3.html）を見てみると、.list-tel-shopという要素がないページが表示されます。

ここまでのことから、順番にURLを変えてアクセスしていって.list_tel_shopが取得できなくなったらその区はおわり、という判断の仕方ができます。

コードに落とし込むと、こんな感じでしょうか。

python
1import requests
2import re
3from bs4 import BeautifulSoup
4
5def get_shops_at_page(base_url, n):
6    """ある区のn番目のページにあるすべてのlist_tel_shopを返す"""
7    url = f"{base_url}{str(n)}.html" if n > 1 else base_url
8    res = requests.get(url)
9    soup = BeautifulSoup(res.text, 'html.parser')
10    return soup.find_all('div', attrs={'class': 'list_tel_shop'})
11
12def get_shops(base_url):
13    """ある区のすべてのlist_tel_shopを返す
14    返値は [{'name': '...', 'address': '...', 'tel': '...'}, {...}, ...]
15    """
16    shops = []
17    n = 1
18    # get_shops_at()が[]を返すまでどんどん次のページの情報を取得する
19    while True:
20        shop_els = get_shops_at_page(base_url, n)
21        if not shop_els:
22            break
23        for shop_el in shop_els:
24            # 以下、shop_el.find_all()でないのは「shop_el」つまり「.list_tel_shop」に
25            # 「.shop_address」や「.shop_tel」といった要素が1つづつしか存在しないため
26            shop = {}
27            name = shop_el.find('a', href=re.compile("^/local/nsh/"))
28            if name:
29                shop['name'] = name.text
30            address = shop_el.find('p', attrs={'class': 'shop_address'})
31            if address:
32                shop['address'] = address.text
33            tel = shop_el.find('p', attrs={'class':'shop_tel'})
34            if tel:
35                shop['tel'] = tel.text
36            shops.append(shop)
37        n += 1
38    return shops
39
40# 複数の区の情報を得るなら以下のように使う
41
42def flatten(xs):
43    return list(itertools.chain.from_iterable(xs))
44
45urls = [
46    'https://el.e-shops.jp/local/jb/6008/jn/6000523/cn/23109/',
47]
48
49# [ [{...}, ...], [{...}, ...], ... ]になるのでflattenして[{...}, {...}, ...]に
50shops = flatten([get_shops(url) for url in urls])

get_shops()ではshopごとに{'name': '...', 'address': '...', 'tel': '...'}という辞書を作ってそのリストを返すようにしています。

name/address/telそれぞれのリストがほしければ以下のようにしましょう。

python
1names   = [shop['name'] for shop in shops]
2address = [shop['address'] for shop in shops]
3tels    = [shop['tel'] for shop in shops]

これらを一列づつ追加してもいいですが、一気にpd.Dataframeにした方がいい気がします。

python
1import pandas as pd
2
3# [[shopの社名, shopの住所, shopのTEL], [...], ...]に変換
4data = [[shop['name'], shop['address'], shop['tel']] for shop in shops]
5df = pd.DataFrame(data, columns=['社名', '住所', 'TEL'])

投稿2021/10/27 07:58

編集2021/10/31 03:26

fj68

総合スコア752

yoshicue

2021/10/31 02:32

ご回答ありがとうございます。問題なく、複数ページにまたがる分も取得することができました。最後のコードですが、文法エラーが返ってきてしまいます。 import pandas as pd # [[shopの社名, shopの住所, shopのTEL], [...], ...]に変換 data = [[shop['name'], shop['address'], shop['tel'] for shop in shops] df = pd.DataFrame(data, columns=['社名', '住所', 'TEL']) で、data = の一文が引っ掛かります。 [が一つ余分なのかなと思いましたが、うまくいきません。ご確認お願い致します。