無限スクロールページをスクレイピングしているのですが、途中で動作が重くなってしまいます。
以下が動かしているコードの一部です。
python初心者なため、稚拙な記述の仕方かもしれませんがご容赦くださいm(__)m
python
1from selenium.webdriver import Chrome, ChromeOptions, Remote 2from selenium.webdriver.common.by import By 3from selenium.webdriver.support import expected_conditions as EC 4from selenium.webdriver.support.ui import WebDriverWait 5from selenium.common.exceptions import NoSuchElementException 6from selenium.webdriver.common.by import By 7import time 8import re 9import sys 10import json 11import datetime 12 13# 諸情報 14login_ID = '******' 15login_pass = '******' 16chromedriver_path = 'C:/Users/******/chromedriver/chromedriver.exe' 17access_url = '******' 18 19# メイン処理 20def main(): 21 options = ChromeOptions() 22 options.add_argument('--headless') # ヘッドレス起動時のみ 23 driver = Chrome(executable_path=chromedriver_path,options=options) 24 navigate(driver) # 目標箇所に遷移 25 time.sleep(2) 26 contents = scrape_contents(driver) # 内容をスクレイピング 27 28# スクレイピング箇所まで移動 29def navigate(driver): 30 driver.get(access_url) 31 input_element = driver.find_element_by_name('tid') 32 input_element.send_keys(login_ID) 33 input_element = driver.find_element_by_name('tpasswd') 34 input_element.send_keys(login_pass) 35 driver.find_element_by_class_name('MdBtn01').click() 36 time.sleep(2) 37 driver.find_element_by_class_name('MdBtn01').click() 38 time.sleep(2) 39 40# スクレイピング 41def scrape_contents(driver): 42 contents = [] 43 n = 1 44 limit = 3000 45 while n <= limit: 46 article = driver.find_elements_by_css_selector(f'div.container > section > article:nth-of-type({n})') 47 try: article = article[0] 48 except: break 49 try: 50 post_time = article.find_element_by_css_selector('dd.time > a').text 51 post_text = article.find_element_by_css_selector('div.article_contents > p.type_text').text 52 post_comment = [] 53 for c in article.find_elements_by_css_selector('dd.comment > p > span'): 54 post_comment.append(c.text) 55 post_pic_style = [] 56 post_pic = [] 57 for p in article.find_elements_by_css_selector('div.article_contents > div > div > span > a > span[style]'): 58 post_pic_style.append(p) 59 for b in post_pic_style: 60 b = b.value_of_css_property('background-image') 61 b = re.findall('"(.*)"',b) 62 b = ','.join(b) 63 post_pic.append(b) 64 except NoSuchElementException: 65 post_time = '' 66 post_text = '' 67 post_comment = '' 68 post_pic = '' 69 contents.append({ 70 "time": post_time, 71 "text": post_text, 72 "comment": post_comment, 73 "pic": post_pic, 74 }) 75 if n % 10 == 0: 76 try: 77 driver.execute_script('scroll(0, document.body.scrollHeight)') 78 wait = WebDriverWait(driver, 100) 79 wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, f'div.container > section > article:nth-of-type({n+1})'))) 80 except: 81 break 82 sys.stdout.write("\r投稿情報取得数:%d" % n) 83 sys.stdout.flush() 84 n = n + 1 85 return contents 86 87# 実行 88if __name__ == '__main__': 89 main()
自動操作でアクセスしたページで投稿(article)の投稿日時、内容、画像URL、返信コメントをスクレイピングしています。articleの要素は最初は10個あり、下までスクロールすると新たに10個読み込まれます。
limitでスクレイピングする投稿数を指定しています。
上のコードの場合は3000回ループさせていますが、2000回あたりで動作の重さが顕著になっていき、3000当たりではほぼ止まってタイムアウトすることもあります。
原因はchromeで読み込んでいるページが大きくなりすぎているからでしょうか?また、10000回ほどループさせたいのですが、どうすればタイムアウト(100秒まで)せずに処理できるでしょうか?
回答2件
あなたの回答
tips
プレビュー