Web Scraping　スタバHPで1部データしか取得できない場合の対処法

####状況
WebScrapingの勉強をしています。
試しにスターバックスコーヒーの店舗一覧（名前＋住所）を取得しようとしています。
（https://store.starbucks.co.jp/?keyword=）

なおrobots.txtは下記の通り、スクレイピングは禁止されていません。
User-Agent: *
Sitemap: https://store.starbucks.co.jp/sitemap.xml

####問題
スタバ店舗は、本投稿を書いている時点で、1589店舗存在します。
ですが、下記の通りコードを書いたところ、100件しか取得することが出来ませんでした。

これを全件取得するためには、どの様な方針で修正すればよいのでしょうか？
ご教示頂けますと幸いです。

python
1import requests
2import time
3import csv
4import pandas as pd
5
6from selenium import webdriver
7from bs4 import BeautifulSoup
8
9#クロームをヘッドレスで立上げ
10options = webdriver.ChromeOptions()
11options.add_argument('--no-sandbox')
12options.add_argument('--headless')
13driver = webdriver.Chrome(options=options)
14
15#BS4でURLを読み込み
16driver.get("https://store.starbucks.co.jp/?keyword=")
17time.sleep(1)
18html = driver.page_source
19soup = BeautifulSoup(html, 'lxml')
20
21#店舗名／店舗住所を取得しリスト化
22detailContainers = soup.find_all('div', class_="detailContainer")
23
24storeNames=[]
25storeAddresses=[]
26
27for detailContainer in detailContainers:
28    storeNames += [detailContainer.find(class_='storeName').get_text()]
29    storeAddresses += [detailContainer.find(class_='storeAddress').get_text()]
30
31storeList = pd.DataFrame(
32        {
33            'storeName':storeNames,
34            'storeAddress':storeAddresses,
35        }
36    )
37
38print(storeList)

####ターミナル出力

[vagrant@localhost scraping]$ python scraping_starbucks.py
          storeName                      storeAddress
0             札幌北野店            北海道 札幌市清田区 北野6条5丁目6-36
1       イオンモール札幌平岡店  北海道 札幌市清田区 平岡三条5丁目3-1 イオンモール札幌平岡
2             札幌石山店  北海道 札幌市南区 石山2条9丁目7-50 アクロスプラザ札幌南
3       イオンモール札幌苗穂店  北海道 札幌市東区 東苗穂2条3丁目1-1 イオンモール札幌苗穂
4              秋田駅店                   秋田県 秋田市 中通7-1-2
..              ...                               ...
95  大手町カンファレンスセンター店            東京都 千代田区 大手町1-3-1 JAビル
96        丸の内パークビル店    東京都 千代田区 丸の内2-6-1 丸の内パークビルディング
97        ＫＩＴＴＥ丸の内店                 東京都 千代田区 丸の内2-7-2
98         アトレ秋葉原1店        東京都 千代田区 外神田1-17-6 アトレ秋葉原１
99       JR秋葉原駅ラチ内店  東京都 千代田区 外神田1-17-6 JR秋葉原駅総武線連絡通路

[100 rows x 2 columns]

行動規範の内容に同意します

回答1件

ベストアンサー

HPを参照した限り「もっと見る」である程度データを読み込んだ段階(手元の環境では、最初に読み込まれた100件のうち50件が表示されたタイミング)で追加で100件読み込んでいるようです。

よって、
①「もっと見る」ボタンの存在をチェックし、あれば押下
②画面上に表示された店舗を抜き出す
を繰り返すのがベターだと思います。

投稿2020/09/29 02:10

nekoniki

総合スコア2411

wayway

2020/09/29 02:13

ありがとうございます！初めての練習ページをスタバにしたのですが、なかなか大変の様だと理解しました。。。

wayway

2020/09/29 02:22

後学のために、 >最初に読み込まれた100件のうち50件が表示されたタイミング)で追加で100件読み込んでいるというのは、HTMLコードを見て確認されたのでしょうか？もしそうであれば、どこを見ればその仕組みが記載されているのか、ご教示頂けますと大変幸いです。

nekoniki

2020/09/29 02:28

> どこを見ればその仕組みが記載されているのか、ご教示頂けますと大変幸いです。 HTMLコードを参照すると、店舗を表示しているのがclass="item"のタグのようだったので、 const elements = document.getElementsByClassName("item"); で対象タグのリストを取得しました。ページ読み込み時点ではelementsの件数が100件ちょうどでしたが、「もっと見る」を5回押した時点(50〜60件目の店舗が表示されたタイミング)で上記の取得件数が200件に増えていたため、「ある程度店舗が表示されると、裏側で追加で店舗を読み込み直す」という仕組みがあるのではないかと考え回答した次第です。

wayway

2020/09/29 02:31

理解致しました！丁寧な説明、ありがとうございました。

行動規範の内容に同意します