seleniumのスクレイピング動作が非常に遅い

seleniumを利用したデータの取得がbeautifulsoupに比べて何倍も遅く、困っています。

下記は馬の戦績データを取得するコードですが、beautifulsoupを使えば１年分のレースの馬IDを取得するのに
４時間程度で終わるのですが、こちらだと３０時間とかかかります。

beautifulsoupを使えばいいじゃんと思うのですが、有料会員データのタイム指数がjavascriptを使用しているらしく、
seleniumじゃないと取得できません。
headlessモードにするとタイム指数のデータは取得できず、またheadlessモードの方が何故か重かったです。

なにか対処法はありますでしょうか。

def horse_resultsp_scrape2(horse_id_list):
    
        horse_results_p ={}
        profile_path = '自分自身のクロームプロファイルパス'
        options = webdriver.chrome.options.Options()
        options.add_argument('--user-data-dir=' + profile_path)
#         options.add_argument('--headless')
        driver= webdriver.Chrome(options=options)  
        framelist = ['日付','開催','天気','R','レース名','映像','頭数','枠番','馬番','オッズ','人気','着順','騎手','斤量','距離','馬場','馬場指数','タイム','着差','ﾀｲﾑ指数','通過','ペース','上り','馬体重','厩舎ｺﾒﾝﾄ','備考','勝ち馬(2着馬)','賞金']
        
        for horse_id in tqdm(horse_id_list):
            
            try:
                url = 'https://db.netkeiba.com/horse/' + horse_id
                driver.get(url)
                elements = driver.find_elements_by_tag_name('tbody')[3]
                try:
                    tbls = driver.find_element_by_class_name('db_award_table_01')
                    elements = driver.find_elements_by_tag_name('tbody')[4] 
                except:
                    pass
                
                tr_elements = elements.find_elements_by_tag_name('tr') 
                s_row=[]
                row=[]
                for tr in tr_elements:
                    td_elements = tr.find_elements_by_tag_name('td')
                    for td in td_elements:
                        row.append(td.text)   
 
                s_row = list(split_list(row, 28))
                df = pd.DataFrame(s_row,columns=framelist)
                df.index = [horse_id] * len(df)
                horse_results_p[horse_id] = df
                  #存在しないrace_idを飛ばす
            except IndexError:
                continue
            #wifiの接続が切れた時などでも途中までのデータを返せるようにする
            except Exception as e:
                print(e)
                horse_results_df = pd.concat([horse_results_p[key] for key in horse_results_p])
                driver.close()
                return horse_results_df
            #Jupyterで停止ボタンを押した時の対処
            except:
                horse_results_df = pd.concat([horse_results_p[key] for key in horse_results_p])
                driver.close()
                return horse_results_df
            
        horse_results_df = pd.concat([horse_results_p[key] for key in horse_results_p])
        driver.close()
        return horse_results_df

行動規範の内容に同意します

回答1件

ベストアンサー

BeautifulSoupと比較すると時間がかかるのは仕様なので仕方がないです。
BeautifulSoupはレスポンスで返ってくるHTMLデータに対して処理をするのに対して、
SeleniumはChromeが働いている以上、Webサイトのレンダリング処理といった動作も行われているので…
取得したいリストの全件数や遷移ページ数にもよりますが数十時間かかるのは妥当かと思います。

コードにも特に問題は見られませんでした。

投稿2021/03/28 06:19