質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

89.06%

seleniumで504Gateway Timeoutがでる

受付中

回答 1

投稿

  • 評価
  • クリップ 0
  • VIEW 62

toss

score 52

pythonスクレイピングテストでSeleniumでサーバー上で動かしています。
最初の3、4回目くらいは処理に成功して値をとってこれるのですが、それ以上すると504エラーになります。

また何日か後にやると正常に稼働し、その後3,4回後には504というループです。

どのような原因が考えられるでしょうか?
ソースコード
・サーバーのスペックはCONOHA VPSの4GBです。
・pythonは2.7

#!/usr/bin/env python
# -*- coding: utf-8 -*-

import csv
from datetime import datetime
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.chrome.options import Options
from selenium.common.exceptions import TimeoutException
import cgi # CGIモジュールのインポート
import time
import cgitb
import sys
import os


print("Content-Type: text/plain;charset=utf-8") #HTMLを出力するために必要
print("") #HTMLを出力するために必要
options = Options()
options.add_argument('--headless')
options.add_argument('--no-sandbox')
driver = webdriver.Chrome(executable_path='/usr/local/bin/chromedriver',options=options)

# 要素が見つかるまで、最大2秒間待機する
driver.implicitly_wait(2)
# ぺージがローディングされるまで最大10秒待つ
driver.set_page_load_timeout(10)

i = 0
while i < 3: # 最大3回実行
  try:
    driver.get('https://google.com?num=100')
    time.sleep(3)

  # while True:
  #   # 標準入力の値を取得
    array_keywords = 'python,test1,test2,test3,test4,test5'

    for kw in array_keywords:

    #   # 入力フォームの値をクリアにする
      driver.find_element_by_name("q").clear()

    #   # 入力フォームの要素を探す
      element = driver.find_element_by_name("q")

    #   # 入力フォームにキーワードを入力する
      element.send_keys(kw)

    #   # フォームを送信する
      element.send_keys(Keys.RETURN)

    #   最大20秒待つ
      WebDriverWait(driver, 20).until(
        EC.title_contains(kw) # titleタグに標準入力したキーワードが含まれるまで
      )
      print(driver.title)

      driver.back()
    else:
      print("ループ終了")

  except TimeoutException as e:
    i = i + 1
    print(i)
    print("例外発生")
    print("type:" + str(type(e)))
    continue

  else:
    break # ループを抜ける
    driver.quit()


else: #3回失敗した場合
  print("3回失敗")
  print("type:" + str(type(e)))
  driver.quit()
  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 過去に投稿した質問と同じ内容の質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

質問への追記・修正、ベストアンサー選択の依頼

  • meg_

    2020/08/02 11:34

    スクレイピングの対象サイトはスクレイピング可能なサイトですか?

    キャンセル

回答 1

0

まずpython3っぽいコードですがそこは問題ないでしょうか。

出ているエラーを見るにimplicitly_waitが短すぎるのではないかと思います。

import csv
from datetime import datetime
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.chrome.options import Options
from selenium.common.exceptions import TimeoutException
import cgi # CGIモジュールのインポート
from time import sleep
import cgitb
import sys
import os


print("Content-Type: text/plain;charset=utf-8") #HTMLを出力するために必要
print("") #HTMLを出力するために必要
options = Options()
options.add_argument('--headless')
options.add_argument('--no-sandbox')
driver = webdriver.Chrome(executable_path='/usr/local/bin/chromedriver',options=options)

driver.implicitly_wait(20)

for i in ['1', '2', '3']:

    print(i + '回目のチャレンジです')

    try:
        driver.get('https://google.com?num=100')
        sleep(5)

        for kw in 'python,test1,test2,test3,test4,test5'.split(','):
            driver.find_element_by_name("q").clear()
            driver.find_element_by_name("q").send_keys(kw)
            driver.find_elements_by_xpath('//input[@value="Google 検索"]')[-1].click()
            WebDriverWait(driver, 20).until(EC.title_contains(kw))
            print(driver.title)
            driver.back()
        print(i + "回目は6つのキーワード全て正常終了しました")

    except TimeoutException as e:
        print(i + '回目は例外が発生しました')
        print("type:" + str(type(e)))
        continue

driver.quit()

また、googleはスクレイピングを禁止していますので、
何かあった際は自己責任になります。

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

15分調べてもわからないことは、teratailで質問しよう!

  • ただいまの回答率 89.06%
  • 質問をまとめることで、思考を整理して素早く解決
  • テンプレート機能で、簡単に質問をまとめられる

関連した質問

同じタグがついた質問を見る