質問編集履歴

投稿時のteratailの不具合のため

2019/10/30 16:17

投稿

banao

スコア13

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -1,5 +1,7 @@
-無限スクロールページをスクレイピングしているのですが、途中で動作が重くなっていしまいます。
+無限スクロールページをスクレイピングしているのですが、途中で動作が重くなってしまいます。
+以下が動かしているコードの一部です。
+python初心者なため、稚拙な記述の仕方かもしれませんがご容赦くださいm(__)m
-```ここに言語を入力
+```python
 from selenium.webdriver import Chrome, ChromeOptions, Remote
 from selenium.webdriver.common.by import By
 from selenium.webdriver.support import expected_conditions as EC
@@ -27,5 +29,70 @@
     time.sleep(2)
     contents = scrape_contents(driver) # 内容をスクレイピング
+# スクレイピング箇所まで移動
+def navigate(driver):
+    driver.get(access_url)
+    input_element = driver.find_element_by_name('tid')
+    input_element.send_keys(login_ID)
+    input_element = driver.find_element_by_name('tpasswd')
+    input_element.send_keys(login_pass)
+    driver.find_element_by_class_name('MdBtn01').click()
+    time.sleep(2)
+    driver.find_element_by_class_name('MdBtn01').click()
+    time.sleep(2)
+# スクレイピング
+def scrape_contents(driver):
+    contents = []
+    n = 1
+    limit = 3000
+    while n <= limit:
+        article = driver.find_elements_by_css_selector(f'div.container > section > article:nth-of-type({n})')
+        try: article = article[0]
+        except: break
+        try:
+            post_time = article.find_element_by_css_selector('dd.time > a').text
+            post_text = article.find_element_by_css_selector('div.article_contents > p.type_text').text
+            post_comment = []
+            for c in article.find_elements_by_css_selector('dd.comment > p > span'):
+                post_comment.append(c.text)
+            post_pic_style = []
+            post_pic = []
+            for p in article.find_elements_by_css_selector('div.article_contents > div > div > span > a > span[style]'):
+                post_pic_style.append(p)
+            for b in post_pic_style:
+                b = b.value_of_css_property('background-image')
+                b = re.findall('"(.*)"',b)
+                b =  ','.join(b)
+                post_pic.append(b)
+        except NoSuchElementException:
+            post_time = ''
+            post_text = ''
+            post_comment = ''
+            post_pic = ''
+        contents.append({
+            "time": post_time,
+            "text": post_text,
+            "comment": post_comment,
+            "pic": post_pic,
+        })
+        if n % 10 == 0:
+            try:
+                driver.execute_script('scroll(0, document.body.scrollHeight)')
+                wait = WebDriverWait(driver, 100)
+                wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, f'div.container > section > article:nth-of-type({n+1})')))
+            except:
+                break
+        sys.stdout.write("\r投稿情報取得数：%d" % n)
+        sys.stdout.flush()
+        n = n + 1
+    return contents
-# 目標
+# 実行
+if __name__ == '__main__':
+    main()
-```
+```
+自動操作でアクセスしたページで投稿(article)の投稿日時、内容、画像URL、返信コメントをスクレイピングしています。articleの要素は最初は10個あり、下までスクロールすると新たに10個読み込まれます。
+limitでスクレイピングする投稿数を指定しています。
+上のコードの場合は3000回ループさせていますが、2000回あたりで動作の重さが顕著になっていき、3000当たりではほぼ止まってタイムアウトすることもあります。
+原因はchromeで読み込んでいるページが大きくなりすぎているからでしょうか？また、10000回ほどループさせたいのですが、どうすればタイムアウト（100秒まで）せずに処理できるでしょうか？