質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.47%
Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

selenium

Selenium(セレニウム)は、ブラウザをプログラムで作動させるフレームワークです。この原理を使うことにより、ブラウザのユーザーテストなどを自動化にすることができます。

Q&A

解決済

1回答

3815閲覧

Selenium + headless optionでうまく取得できないページがある

hiro_python

総合スコア4

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

selenium

Selenium(セレニウム)は、ブラウザをプログラムで作動させるフレームワークです。この原理を使うことにより、ブラウザのユーザーテストなどを自動化にすることができます。

0グッド

1クリップ

投稿2021/07/03 07:01

編集2021/07/03 07:04

Seleniumを使い、headless optionを使った時のみ
エラーが出て情報を取得できないページがあります。

headless optionを有効にしたまま、情報を取得したいのですが
どのように修正・追加を加えればよいでしょうか。
ご教授いただけると幸いです。

以下、ソースコードです。

from

1from selenium.webdriver.chrome.options import Options 2 3options = webdriver.ChromeOptions() 4# headless外すとうまくいく 5options.add_argument('--headless') 6options.add_argument('--disable-gpu') 7options.add_argument('--no-sandbox') 8options.add_argument('--disable-dev-shm-usage') 9options.add_argument('--ignore-certificate-errors') 10options.add_argument('--blink-settings=imagesEnabled=false') 11driver = webdriver.Chrome('chromedriver',options=options) 12 13# テストページ 14#url = 'http://example.selenium.jp/reserveApp/' 15 16# エラーが出てしまう問題のページ 17url = 'https://patft.uspto.gov/netahtml/PTO/' 18 19driver.implicitly_wait(10) 20driver.get(url) 21 22class_name = '/html' 23elems = driver.find_elements_by_xpath(class_name) 24 25print(elems[0].text) 26 27driver.quit()

エラー内容

Traceback

1 File "/***/USPTO_error_check_test.py", line 26, in <module> 2 driver.get(url) 3 File "/Library/Frameworks/Python.framework/Versions/3.9/lib/python3.9/site-packages/selenium/webdriver/remote/webdriver.py", line 333, in get 4 self.execute(Command.GET, {'url': url}) 5 File "/Library/Frameworks/Python.framework/Versions/3.9/lib/python3.9/site-packages/selenium/webdriver/remote/webdriver.py", line 321, in execute 6 self.error_handler.check_response(response) 7 File "/Library/Frameworks/Python.framework/Versions/3.9/lib/python3.9/site-packages/selenium/webdriver/remote/errorhandler.py", line 242, in check_response 8 raise exception_class(message, screen, stacktrace) 9selenium.common.exceptions.WebDriverException: Message: unknown error: net::ERR_CONNECTION_RESET 10 (Session info: headless chrome=91.0.4472.114)

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

ベストアンサー

サイト側でヘッドレスを検知して接続を切っているということでしょうから、クライアント側ではどうしようも無いでしょう。

投稿2021/07/03 09:42

otn

総合スコア84677

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

hiro_python

2021/07/04 00:57

headlessを検知できないように工夫したところ、解決しました。 ありがとうございました。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.47%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問