実現したいこと

AWS Lambda (python)でseleniumを使ってwebスクレイピングを行いたいが、
Lambda実行時にエラー発生するため、エラーを解消したい

問題点

まずは find_element_by_name で要素の取得を行えるかを確認しようとしたところ、
下記のコードをLambdaに書いてテスト実行するとエラーが発生する。

ソースコード

# python配下自動でimport 
from selenium import webdriver
from selenium.webdriver.support.select import Select


def lambda_handler(event, context):
    
    # webサイトにアクセス
    URL = "https://www.net.city.nagoya.jp/cgi-bin/sp05001"

    options = webdriver.ChromeOptions()
    options.add_argument("--headless")
    options.add_argument("--disable-gpu")
    options.add_argument("--hide-scrollbars")
    options.add_argument("--single-process")
    options.add_argument("--ignore-certificate-errors")
    options.add_argument("--window-size=880x996")
    options.add_argument("--no-sandbox")
    options.add_argument("--homedir=/tmp")
    options.binary_location = "/opt/headless/python/bin/headless-chromium"
    
    #ブラウザの定義
    browser = webdriver.Chrome(
        "/opt/headless/python/bin/chromedriver",
        options=options
    )

    browser.get(URL)
    title = browser.title
    
    syumoku = browser.find_element_by_name('syumoku') # 種目の要素を取得
    Select(syumoku).select_by_index(23) # バスケットボールを選択
    
    browser.close()

    return

エラーメッセージ

{
  "errorMessage": "Message: no such element: Unable to locate element: {\"method\":\"css selector\",\"selector\":\"[name=\"syumoku\"]\"}\n  (Session info: headless chrome=64.0.3282.167)\n  (Driver info: chromedriver=2.37.544315 (730aa6a5fdba159ac9f4c1e8cbc59bf1b5ce12b7),platform=Linux 4.14.255-273-220.498.amzn2.x86_64 x86_64)\n",
  "errorType": "NoSuchElementException",
  "stackTrace": [
    "  File \"/var/task/lambda_function.py\", line 30, in lambda_handler\n    syumoku = browser.find_element_by_name('syumoku') # 種目の要素を取得\n",
    "  File \"/opt/python/lib/python3.7/site-packages/selenium/webdriver/remote/webdriver.py\", line 665, in find_element_by_name\n    return self.find_element(by=By.NAME, value=name)\n",
    "  File \"/opt/python/lib/python3.7/site-packages/selenium/webdriver/remote/webdriver.py\", line 1250, in find_element\n    'value': value})['value']\n",
    "  File \"/opt/python/lib/python3.7/site-packages/selenium/webdriver/remote/webdriver.py\", line 425, in execute\n    self.error_handler.check_response(response)\n",
    "  File \"/opt/python/lib/python3.7/site-packages/selenium/webdriver/remote/errorhandler.py\", line 247, in check_response\n    raise exception_class(message, screen, stacktrace)\n"
  ]
}

nameタグの'syumoku'がないというエラーだと思いますが、
今回指定したwebサイトを確認するとnameタグの'syumoku'は確認できる。
何が問題でエラーなのかが分かりません。

事前に確認したこと

https://qiita.com/ichihara-development/items/5e61c3424b3176bc6096
のページを参考にさせて頂き、サンプルコードでの動作確認は実施済です。
特にエラーは発生しなかったので、selenium、chromedriver、headless-chromium
のインストールやLambdaレイヤーの作成などは問題ないと思っています。

サンプルコード

# python配下自動でimport 
from selenium import webdriver

def lambda_handler(event, context):

    URL = "https://news.yahoo.co.jp/"

    options = webdriver.ChromeOptions()
    options.add_argument("--headless")
    options.add_argument("--disable-gpu")
    options.add_argument("--hide-scrollbars")
    options.add_argument("--single-process")
    options.add_argument("--ignore-certificate-errors")
    options.add_argument("--window-size=880x996")
    options.add_argument("--no-sandbox")
    options.add_argument("--homedir=/tmp")
    options.binary_location = "/opt/headless/python/bin/headless-chromium"

    #ブラウザの定義
    browser = webdriver.Chrome(
        "/opt/headless/python/bin/chromedriver",
        options=options
    )


    browser.get(URL)
    title = browser.title
    browser.close()

    return title

ログ貼り付け

実行結果: 成功(ログ)
詳細
関数の実行から返された結果が以下のエリアに表示されます。関数から結果を返す方法の詳細については、こちらをご参照ください。
"Yahoo!ニュース"
概要
コード SHA-256
c58SQmsfJ1iD9xs4GXsFXLg1ZOp6Pkf6QvmHWvW98d4=
リクエスト ID
07ad0c56-b30b-4efe-a6d8-01f36f4a72cc
初期所要時間
243.01 ms
所要時間
37484.14 ms
課金期間
37485 ms
設定済みリソース
256 MB
使用中の最大メモリ
256 MB
ログ出力
以下のセクションでは、コード内のロギング呼び出しを示しています。ここをクリックし、 で対応する CloudWatch ロググループを表示できます。
START RequestId: 07ad0c56-b30b-4efe-a6d8-01f36f4a72cc Version: $LATEST
END RequestId: 07ad0c56-b30b-4efe-a6d8-01f36f4a72cc
REPORT RequestId: 07ad0c56-b30b-4efe-a6d8-01f36f4a72cc	Duration: 37484.14 ms	Billed Duration: 37485 ms	Memory Size: 256 MB	Max Memory Used: 256 MB	Init Duration: 243.01 ms

行動規範の内容に同意します

回答1件

ベストアンサー

今回指定したwebサイトを確認するとnameタグの'syumoku'は確認できる。

確認の仕方が悪いのでしょう。
syumoku = browser.find_element_by_name('syumoku')の直前に、
print(driver.page_source)を入れて、その出力のHTMLで確認しましょう。

投稿2022/04/14 10:34

otn

総合スコア86365

agtrer

2022/04/14 20:13

print(browser.page_source)で確認してみたところ、下記ソースコードを含む空のページが返されていました。 <html xmlns="http://www.w3.org/1999/xhtml"><head></head><body></body></html> 私のローカル環境やEC2サーバー環境で同じことをしてみたらhtmlの中身がきちんと返されます。 Lambdaで実行すると上手くいきません。下記のサイトでも私と同じような問題で困っている方を見つけましたが解決していないようです。 https://stackoverflow.com/questions/62700862/chrome-headless-in-aws-lambda-returns-empty-page selenium、chromedriver、headless-chromiumのバージョンを変更し、再度やり直してみたりもしましたが同様のエラーが発生してしまいます。現状の各ツールのバージョンは下記のとおりです。 selenium = 3.141.0 chromedriver = 2.43 headless-chromium = 1.0.0-55

otn

2022/04/15 00:53

同様に空ページが返る現象をこのサイトの質問で見たことがあります。原因が判明した気もしますが、よく覚えてません。質問としては「空が返る」じゃなくてあなたと同じように「要素が見つからないというエラー」の質問だったと思います。

Yuu

2022/04/15 05:50 編集

何かサイトが変ですね。参考になればですが試しに自分の手元でcurlを実行しましたが、証明書の検証エラーではじかれます。 $ curl https://www.net.city.nagoya.jp/cgi-bin/sp05001 curl: (60) SSL certificate problem: unable to get local issuer certificate More details here: https://curl.haxx.se/docs/sslcerts.html curl failed to verify the legitimacy of the server and therefore could not establish a secure connection to it. To learn more about this situation and how to fix it, please visit the web page mentioned above. 検証しないオプションを付けて実行するとうまく取得できます。 (curl -k https://www.net.city.nagoya.jp/cgi-bin/sp05001) TOPページはhttps接続が弾かれているのに今回スクレイピングしたいページはhttpではじかれhttpsで表示されるのでサーバーの中身自体一貫性が無く変な気がします。それは置いておいて、私の手元だと証明書の検証に失敗しているので、seleniumでも同じような事が起こっているとかありませんかね? ちなみにローカルやec2でもheadless-chromiumでかつpythonなども同じバージョンで試してうまくいきましたか? lambda以外は普通のchrome使って上手くいくのであれば(ブラウザで閲覧できるので)分かりますが、全部headlessで実行してもうまくいかないのは不思議ですね。

agtrer

2022/04/17 14:47

実行結果のログを全て確認しましたが、認証系のエラーは特に起きていないようでした。ローカルはheadless-chromiumは未使用でpythonのバージョンは3.9、ブラウザやWebドライバのバージョンは最新のもので行っています。 EC2はheadless-chromiumは使用していますが、pythonのバージョンは3.9、ブラウザやwebドライバのバージョンは最新のものを使っているので、どちらもLambdaでの開発環境とは異なっています。 Lambdaを使う場合はPython3.8以上にするとSeleniumが動作しなくなるとの記事が幾つか見つけたため、今回Pythonは3.7、各ツールのバージョンは上記に記載したものにしている次第です。この辺りのバージョンの違いが影響していることは十分考えられますので、また時間があるときに色々と条件を変えて検証してみようと思います。

otn

2022/04/18 01:06 編集

わたしもMSYS2のwgetで認証の警告が出ましたが、普通のブラウザではエラーは出ないので、単にwgetの参照している証明書が古いと言うことだと思いますので、関係ないでしょう。Windows標準のcurl.exeでは認証の問題は無かったです。わたし> 同様に空ページが返る現象をこのサイトの質問で見たことがあります。原因が判明した気もしますが、自分が回答した質問だけに絞ってteratail内を検索する機能があるといいのですが、ちょっと検索した限りではその質問は見つからないですね。

行動規範の内容に同意します