画面遷移がJavascript:void(0)で無効な上、data-offsetを使って画面を更新しているウェブサイトのスクレイピング方法

Question

### 前提・実現したいこと厚生労働省の[介護事業所・生活関連情報検索](http://www.kaigokensaku.mhlw.go.jp/13/index.php?action_kouhyou_pref_search_list_list=true)から事業所のリストを取得したいと思っています。このサイトは次ページへのリンクでhref=javascript:void(0)を使用している為、次ページに行く際にURLが変更されずにスクレイピングの仕方が分かりません。全く同じ様なteratailの質問を[ここ](https://teratail.com/questions/164050)で見つけたのですが、requestで取得したページが欲しいものとは別で上手くいきませんでした。(URLはhttp://www.kaigokensaku.mhlw.go.jp/13/index.php?action_kouhyou_pref_search_list_list=trueに変えて行いました) この様に画面遷移が無効になっていてdata-offsetを使って見た目を更新しているサイトのスクレイピングの仕方をどうか教えて頂けないでしょうか？よろしくお願い致します。 ### 発生している問題・エラーメッセージまた、検証モード->ネットワークで次ページをクリックした際の詳細URLをChromeに直接打ち込んで飛んでみましたが、以下の様な画面が表示されてしまいます。 ![ネットワークで取得した詳細URLを直接Chromeに打ち込んで画面に飛んだ際の表示画面](41f4285918e408a2e6f564cef115b133.png) ### 該当のソースコード ```python3 from selenium import webdriver from selenium.webdriver.chrome.options import Options from google.colab import files from bs4 import BeautifulSoup import time import requests import pandas as pd columns = ["Name"] df = pd.DataFrame(columns=columns) search_url = "http://www.kaigokensaku.mhlw.go.jp/13/index.php?action_kouhyou_pref_list_result=true&method=pager&p_count=5&p_offset=0&p_sort_name=FreeNumUpdateDate&p_order=1" options = webdriver.ChromeOptions() options.add_argument('--headless') options.add_argument('--no-sandbox') options.add_argument('--disable-dev-shm-usage') driver = webdriver.Chrome('chromedriver',options=options) driver.get(search_url) time.sleep(10) html = driver.page_source.encode('utf-8') soup = BeautifulSoup(html, "html.parser") print(soup.prettify()) # # ここから下は普通にスクレイピングを行なっていく。 sections = soup.find_all("li", {"class": "listItem"}) for section in sections: name = section.find("a", {"class" : "noLink"}).get_text() if (name != ''): se = pd.Series([name], columns) df = df.append(se, columns) df ``` ```result Name ``` ### 試したこと - requestを使ってみる空の画面が表示されてしまいました。 - 普通にSeleniumを使ってみる(このサイトがJSでデータを反映させている為) 最初のページはスクレイピング出来るのですが、2ページ目以降がページ遷移の仕方が分からずに出来ませんでした。 - [この質問](https://teratail.com/questions/164050)の回答をカスタマイズしつつ試しみてる空の画面が表示されてしまいました。 - 検証->ネットワークから得た次ページのURLの詳細を使ってスクレイピングをしてみる上記のエラーに添付した画像の様な物が表示されてしまいました。 ### 補足情報（FW/ツールのバージョンなど）上記コードはGoogle Colabを使って動かしています。

Accepted Answer

Lhankor_Mhyさんも書かれていますがJSON取得ではだめなのでしょうか？

あとはoffsetを変えれば取得できます。

```python
import requests

r = requests.get("http://www.kaigokensaku.mhlw.go.jp/13/index.php?action_kouhyou_pref_search_search=true&method=search&p_count=50&p_offset=0&p_sort_name=FreeNumUpdateDate&p_order=1")

# エンコード
# r.encoding = r.apparent_encoding

r.encoding = "UTF-8-SIG"

data = r.json()

for i in data["data"]:
    print(i["JigyosyoName"])
```

Answer

こんな感じですかね。検証してないので間違ってたらすみません。

```python
from selenium.webdriver.support.select import Select
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.common.by import By

# サイトにアクセス
driver.get('http://www.kaigokensaku.mhlw.go.jp/13/index.php?action_kouhyou_pref_search_list_list=true')

# 50件表示に変更
Select(driver.find_element_by_id('displayNumber').select_by_value('50')

# 無限ループ
while True:

    # 事業所名をprint
    for a_tag in driver.find_elements_by_class_name('noLink'):
        if a_tag.txt != '':
            print(a_tag.txt)

    # 「次へ」をクリック
    # 最終ページまで行ってたらエラーが起こるので無限ループ終了
    try:
        driver.find_elements_by_link_text('次へ>')[0].click()
        WebDriverWait(driver, 7).until(EC.element_to_be_clickable(By.ID, 'toggleGoogleMapBtn'))
    except Exception:
        break
```

次へをクリックした後、ajaxか何かの遷移が完了するまで待ってやる必要がありますが、
「「地図を開く」ボタンがクリックできるまで最大で7秒待つ」としています。

前提・実現したいこと

発生している問題・エラーメッセージ

該当のソースコード

試したこと

補足情報（FW/ツールのバージョンなど）

関連した質問