seleniumでスクレイピング。ある部分が取れない

Question

### 前提ランキングサイトからランクとnameを取得するコードを作成中 - １ページにランキングは100個 - それが1591ページまである - ランキング部分はjavascriptだから、requestsではなくseleniumを使用 - 「次のページ」ボタンは10ページまでしかないので、urlのページ番号をwhileで変更させてアクセス - クラウドではなく、ローカル - mac ### 実現したいことランキングサイトからランクとnameを取得したい ### 発生している問題２つあります ①「値が無いよ」と言われて途中で止まる ``` (ページ数) 238 ->1591まで 239 ->1591まで 240 ->1591まで 241 ->1591まで 242 ->1591まで 243 ->1591まで 244 ->1591まで 245 ->1591まで list index out of range <-エラーメッセージ ``` ②取得成功した値の中でも、途中で抜けている部分がある ![イメージ説明](https://ddjkaamml8q8x.cloudfront.net/questions/2023-01-21/f86e82fd-3e70-43d8-9b9e-dbff99988d45.png) ### 該当のソースコード ```python from selenium import webdriver from selenium.webdriver.chrome.options import Options from selenium.webdriver.common.by import By from selenium.webdriver.common.keys import Keys from bs4 import BeautifulSoup from pprint import pprint import pandas as pd # オプション options = webdriver.ChromeOptions() options.add_argument('--headless') # ブラウザ立ち上げるか driver = webdriver.Chrome("/Users/mt/Documents/program/Python/scraping_かむなび/chromedriver", options=options) driver.implicitly_wait(10) url= "https://navi.kamuitracker.com/ranking/youtube_alltime?pg=" pageNum = 1 rankList = [] chNameList = [] def main(): try: while pageNum < 1592: driver.get(url + str(pageNum)) driver.implicitly_wait(10) content = driver.page_source soup = BeautifulSoup(content, "html.parser") elements = soup.find_all('div', class_='ranking-wrap')[0] for a in elements.find_all('a'): rankList.append(a.find('p', class_='num').string) # ランキング chNameList.append(a.find('p', class_='name').string) # ch名 pageNum += 1 print(pageNum, " ->1591まで") # csvに保存 df = pd.DataFrame(rankList) df.to_csv('rankList.csv') df = pd.DataFrame(chNameList) df.to_csv('chNameList.csv') except Exception as e: print(e) # csvに保存 df = pd.DataFrame(rankList) df.to_csv('rankList.csv') df = pd.DataFrame(chNameList) df.to_csv('chNameList.csv') if __name__ == '__main__': main() ``` ### 試したこと ①「値が無いよ」と言われて途中で止まるの部分は、再度そこからスタートさせると普通に取れる ②はなにも試していないもしかしてdriver.get(url) を何回もやりすぎてるのがよく無いのでしょうか？すみませんがよろしくお願いします。

Accepted Answer

> ランキングサイトからランクとnameを取得したい

前回の質問でコメントしましたが、HTTP GET によってランキングや番組名などの属性データを取得することが可能です。ただ、1591回もアクセスしますので、対象のウェブサイトに過大な負荷を掛けることにもなりかねません。その点はご注意下さい。
```python
import pandas as pd
import time

url = 'https://app.kamuitracker.com/kamunavi/v1/channels/search?page={}'
dfs = []
for i in range(1, 1592):
    df = pd.read_json(url.format(i))['item'].apply(pd.Series)[['rank', 'title']]
    dfs.append(df)
    time.sleep(10)

dfx = pd.concat(dfs)
dfx.to_csv('ranking_and_channel_name.csv', index=False)
```

**Developers Tools**
![イメージ説明](https://ddjkaamml8q8x.cloudfront.net/questions/2023-01-21/430d8028-3918-4e51-b4bd-ccb8d9a5db35.png)

前提

実現したいこと

発生している問題

該当のソースコード

試したこと

関連した質問