Ubuntu18.04でheadlessのSeleniumを起動してもgetで停止してしまう問題

前提・実現したいこと

AWS EC2のUbuntu 18.04を契約してサーバー上でSeleniumを回したいと思っています。

Ubuntuの環境構築にはこちらを参考にしました。
https://qiita.com/shinsaka/items/37436e256c813d277d6d

そして、Seleniumなどで記述したPythonコードを実行しましたが、
getメソッドで特定のURLにアクセスする場面から必ず先に進まなくなります。
getで正常にWebサイトにアクセスできるようにしたいです。

最悪、そのまま放置していると、Ubuntuが落ちてしまい、再起動してもSSHで接続が不可能になり、サーバーごと削除する必要が出てしまいます。(これは私のAWSに対する知識不足の原因が大きいとは思いますが)

発生している問題・エラーメッセージ

コマンドラインからdriver.getを実行したあと、しばらく経過しても先に進まないのを確認してからControl + cを押したときに出る画面です
エラー画面とは言えないかもですが待っていても永遠とエラーにもならないので…

^CTraceback (most recent call last):
  File "<stdin>", line 1, in <module>
  File "/usr/lib/python3/dist-packages/selenium/webdriver/remote/webdriver.py", line 323, in get
    self.execute(Command.GET, {'url': url})
  File "/usr/lib/python3/dist-packages/selenium/webdriver/remote/webdriver.py", line 309, in execute
    response = self.command_executor.execute(driver_command, params)
  File "/usr/lib/python3/dist-packages/selenium/webdriver/remote/remote_connection.py", line 460, in execute
    return self._request(command_info[0], url, body=data)
  File "/usr/lib/python3/dist-packages/selenium/webdriver/remote/remote_connection.py", line 484, in _request
    resp = self._conn.getresponse()
  File "/usr/lib/python3.6/http/client.py", line 1346, in getresponse
    response.begin()
  File "/usr/lib/python3.6/http/client.py", line 307, in begin
    version, status, reason = self._read_status()
  File "/usr/lib/python3.6/http/client.py", line 268, in _read_status
    line = str(self.fp.readline(_MAXLINE + 1), "iso-8859-1")
  File "/usr/lib/python3.6/socket.py", line 586, in readinto
    return self._sock.recv_into(b)
KeyboardInterrupt

該当のソースコード

こちらをコマンドラインから実行しました。(python3を叩いて実行)

python
1from selenium import webdriver
2from selenium.webdriver.chrome.options import Options
3
4options = Options()
5options.binary_location = '/usr/bin/google-chrome'
6options.add_argument('--user-data-dir=userdata')
7options.add_argument('--headless')
8driver = webdriver.Chrome('chromedriver', chrome_options=options)
9driver.get('https://www.google.co.jp')

永遠にGoogleのサイトにアクセスできません。

試したこと

※UserAgentを追加
SeleniumコードにUserAgentを追加してみましたが解決せず

※別の方法で環境構築
https://www.mahirokazuko.com/entry/2019/08/16/202008
こちらを参考にインストールしたりもしました。
この方法の場合、PythonについてはPyenvを導入する方法で実行しました。
こちらの場合も同様の問題が発生します。

※別のOSで実行
WindowsやMac上では同様の問題は発生しませんでした。

補足情報（FW/ツールのバージョンなど）

ChromeおよびChromeDriverのバージョン
83.0.4103.39

利用環境
Ubuntu 18.04 (AWS)

Seleniumなどのバージョン…最新版(python3-seleniumでインストール)

解決策を探しています、どうかよろしくお願いいたします

shirai

2020/06/16 17:51

ユーザーデータを持ったままgoogleにログインしたいようですね。データを抜きにした状態で他のサイトへのアクセスはうまくいきますか？

yoshi_10_11

2020/06/17 01:43

別の回答者さんの回答を参考に--user-data-dirを省いて実行したところ、問題なく処理が実行されました！そのため、このオプションが悪さをしていたみたいです。

行動規範の内容に同意します

回答1件

ベストアンサー

Ctrl-Cで止めたメッセージを見ると、接続先からデータが流れてくるのを待っているところで止まっているように見えます。問題点を切り分けるために以下を試して下さい。

AWS EC2にホスティングしたサーバはgoogleに正しく接続できるか確認

terminal
1curl https://www.google.com/

インストールしたChromeが正しく動作するか確認

いきなりpythonで試すのではなく、インストールしたブラウザがコンソール上で正常に動作するか確認した方が良いでしょう。

terminal
1/usr/bin/google-chrome --user-data-dir=userdata --headless https://www.google.co.jp

ウィンドウがないため、リモートデバッグ用に--remote-debugging-port=9222というオプションをつけても良いでしょう。この場合ブラウザでhttp://対象サーバ:9222/と接続するとheadlessでも接続ウィンドウを見ることができます。

--user-data-dir=userdataが悪さをしていないか確認

googleに一旦ログインを求められここでスタックしている可能性を考えています。本オプションを取る、もしくはuserdataディレクトリを別ディレクトリにするとどうなるでしょうか。

pythonのソースコード上でgoogle以外のウェブサイトに接続できるか確認

googleがBOT対策のために何らかの仕組みを入れていて意図的に接続できなくしている可能性の確認です。Googleだけが接続できないのか、あるいは他のウェブサイトも接続できないのか判断する必要があります。User-Agentを変えたのもこの可能性を考えたからでしょうか。

他のWebDriverによる確認

Google ChromeのWeb Driverだけ動かないのか、あるいは他のドライバも同じ状況なのか確認する必要があります。

投稿2020/06/16 21:41

yymmt

総合スコア1615

yoshi_10_11

2020/06/17 01:42

ご回答ありがとうございました！いろいろ試してみた結果、ご指摘の通り--user-data-dirが悪さをしていることがわかりました。こちらのオプションを外したところ、正常に動作することが確認できました。ディレクトリを別ディレクトリ(/test/userdataなど階層を作ってみたりした)に変更しても動作は変わりませんでした。 Pythonではなく/usr/bin/google-chromeコマンドで実行したため、Chromeの問題であると考えられます。

行動規範の内容に同意します