質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.50%
Capybara

Capybaraは、 Rubyで開発されているWebアプリケーションテストフレームワークです。Webブラウザ不要でブラウザ上のユーザー操作及びJavaScriptの挙動を自動化することができます。

Ruby

Rubyはプログラミング言語のひとつで、オープンソース、オブジェクト指向のプログラミング開発に対応しています。

Q&A

解決済

1回答

3081閲覧

CapybaraとPoltergeistを使用したスクレイピングで急にObsoleteNodeエラー。cssとimageが読み込めなくなった。

paya

総合スコア11

Capybara

Capybaraは、 Rubyで開発されているWebアプリケーションテストフレームワークです。Webブラウザ不要でブラウザ上のユーザー操作及びJavaScriptの挙動を自動化することができます。

Ruby

Rubyはプログラミング言語のひとつで、オープンソース、オブジェクト指向のプログラミング開発に対応しています。

0グッド

1クリップ

投稿2018/03/22 04:45

編集2018/03/22 13:05

実現したいこと(すでに何度か成功している)と問題

ログインが必要なSNSでスクレイピングを行い、特定のタグがついた投稿に対して自動で「いいね」を行いたいと思っています。
MacOSで、Capybara, Poltergeist, Phantomjsを使用しています。詳しいバージョンなどは下に書きますのでご確認ください。

すでにスクリプトは完成していて、1日1回 * 5日間ほどスクリプトを実行しました。
その際に、自動で「いいね」ができていることは目視で確認できました。

が、昨日突然、

The element you are trying to interact with is either not part of the DOM, or is not currently visible on the page (perhaps display: none is set). It's possible the element has been replaced by another element and you meant to interact with the new element. If so you need to do a new 'find' in order to get a reference to the new element. (Capybara::Poltergeist::ObsoleteNode)

が出て実行が成功しなくなってしまいました。

エラーと関係あるのかは分かりませんが、上のエラーが出ると同時に、訪問先のサイトのcssと画像が読み込めなくなったようです。
自分がChromeで確認するとデザインは乱れていないのですが、Capybaraのメソッドでsave_screenshotすると、明らかにhtmlしか読み込まれていないことがわかります。

スクショの一部

上に会員登録 ログイン という文字が出ていますが、本来はdisplay: none;となっているもので、ログインができていることは確認済みです。

エラーの原因の推測

htmlさえ読み込めていればclass, id属性と.text.valueなどをfindして処理が成功すると私は思うのですが、どうやらそうでもないようです。

訪問先のSNSからBANされたのかと思い(但しsleep処理はきちんとしているのでサーバーに大きい負担はかけていないはずです)、アカウントを新しく作り直して試してみたりIPアドレスを変えてみたりしたのですが、以上の現象は改善しませんでした。

また、私ごとですが家のWifiが最近遅いのでcssと画像が読み込まれていないのかなと思いましたが、同様のことを他のサイトで試してみたところスクショが正常でしたので、スクリプトには問題がないと思います。

poltergeistというドライバからのアクセスを制限されている、という可能性もなきにしもあらずかなと思うのですが、user agentを指定しておりますし、一体そんなことができるのかは分かりません…。

バージョン

$ ruby -v ruby 2.4.0p0 (2016-12-24 revision 57164) [x86_64-darwin16] $ gem list ... capybara (2.18.0) poltergeist (1.17.0) ... $ phantomjs -v 2.1.1

このような経緯で、このエラーの解決策が全く見出せないのですが、どなたか助言をいただけませんでしょうか。
ご回答をお待ちしております。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

ベストアンサー

対象のサイトが、 CSS や JavaScript といったアセットファイル類を Amazon CloudFront CDN で配信するようになったからではないでしょうか。これにより、 Poltergeist のデフォルトの設定では CloudFront サーバに対して セキュアな TLS コネクションを張ることが出来ず、 CDN 配信されているファイルがダウンロード出来ていない 可能性があります。

スクレイピングのトラブルはサイトによって多種多様で、まず対象とするサイトが明確でないとなかなか原因の特定が難しいのですが、恐らくは御呈示のスクリーンショットから御見受けするに、 LIPS というサイトではないでしょうか。実際、こちらのサイトの 2018/03/07 の記録 (archive.org) を見てみると、その当時はアセットファイルを //lipscosme.com/ から読み込んで居るものが、現在は //cdn.lipscosme.com/ から読み込んでいるようです。そして、 cdn.lipscosme.com は Amazon CloudFront のサーバを指しています。

では何故、 Amazon CloudFront になると接続出来なくなるかというと、 PhantomJS や Poltergeist の仕様に問題がありそうです。

Poltergeist のこの部分 を御覧頂くと分かる通り、 Poltergeist は特に明示されない場合、 PhantomJS のコマンドラインオプションに --ssl-protocol=TLSv1 というオプションを追加します。これは読んで字の如く、 HTTPS 接続時に使う TLS のバージョンを指定しているのですが、 PhantomJS はこれを「TLS 1.0 以上」という指定ではなく、 「TLS 1.0 のみを使用する」 指定だと認識します。一方で、 cdn.lipscosme.com の設定では、どうも TLS 1.1 以上でなければ接続できないポリシーになっているようです。これは例えば openssl s_client -connect cdn.lipscosme.com:443 -servername cdn.lipscosme.com -tls1 といったコマンドで TLS セッションを張ってみると、 -tls1 では失敗しますが、 -tls1_1-tls1_2 では成功する辺りから確認できます。

結果、頑なに TLS 1.0 で接続しようとする PhantomJS は CloudFront サーバに接続することが出来ず、必要なファイルのダウンロードに失敗している物と思われます。デザインだけでなく処理対象とする要素すらも見当たらないのは、恐らく それを生成する JavaScript ファイルも CDN 配信に切り替わったから ではないでしょうか。

さて、ではどうすれば良いかは単純で、前掲のコードで --ssl-protocol を指定されてしまうのはドライバの初期化時にそれを明示しなかった場合ですから、例えば Capybara::Poltergeist::Driver.new:phantomjs_options => ['--ssl-protocol=default'] といったオプションを渡してしまえば良い と思います。ここで --ssl-protocol=TLSv1.1 等としないのは、実は Poltergeist がこんな仕様になっている理由として、自らのソースのコメントで述べている「PhantomJS が、デフォルトでは SSLv3 のみを使用してしまうから」という状況は、 もう 4 年も前に修正されて おりまして、今はデフォルトで TLSv1.0 以上 という指定になるように改善されているからです。正直、 Poltergeist に pull-request を投げて修正させても良い話かと思います。

因みに、今回のトラブルとは直接の関係がありませんが、同じ個所で指定されている --ignore-ssl-errors=yes というオプションも、出来れば --ignore-ssl-errors=false として無効化しておいた方が良いと考えます。これは所謂 "オレオレ証明書" といった、実際には有効ではない証明書であっても許可してしまう設定です。恐らくは Capybara がテストを主眼に作られていて、テスト環境で無効な証明書が蔓延っていたという背景からデフォルトで設定されているのでしょうが、今回のように実在サイトのスクレイピングに利用するのであれば、単に安全性が損なわれるだけで益が無いからです。併せて御検討下さい。

投稿2018/03/23 16:12

argparse

総合スコア1017

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

paya

2018/03/24 06:11 編集

とても詳しく教えていただきありがとうございます。こちらで成功しました。 我ながらグレーゾーンと思ってやっておりますが、実在サイトのスクレイピングで気をつける点まで合わせてご丁寧に教えていただけて、感謝しております。 また、お恥ずかしながらarchive.orgの存在をすっかり忘れておりましたので、サイトの仕様に何か変更が有りそうだと思った時はこちらを見れば良いということを改めて知ることができて良かったです。勉強になりました。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.50%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問