前提・実現したいこと
プロキシのリストサイト(http://www.freeproxylists.net/ja/)から、pythonでアドレスリストを自動作成したいと思っています。
発生している問題・エラーメッセージ
Seleniumで、ヘッドレスChromeを使い、上記URLを叩くと、以下のページのどちらか表示されます。
(1)通常のブラウザChromeのアクセスで表示されるプロキシリストページ
(2)文字認証(Bot除外)ページ
同じURLによるリクエストで、(1)が表示されることもありますが、(2)が表示されることもあります。
また、「ページ数」の引数を与えると、確実に(2)が表示されます。
通常のブラウザChromeでページ数を与えると、(1)の該当ページが表示されます。
http://www.freeproxylists.net/ja/?page=2
作成ソースコード
python
1from selenium import webdriver 2 3driver = webdriver.Chrome() 4driver.get('http://www.freeproxylists.net/ja/')
試したこと
ヘッドレスChromeのUserAgent・リファラ・navigator情報は、通常のブラウザChromeと同一になっており、一度ページを読み込んだ後に、javascriptで判定されているわけでもなさそうです。
サイト側の/ja/以下のスクリプトで自動判定されていると思われるのですが、何の情報を基に、Botとして認識されていると考えられますでしょうか?
補足情報
Python 3.6.1
Selenium 3.3.1
ChromeDriver 2.35.528161
Google Chrome 64.0.3282.167