Python+Selenium+Tor 途中403エラーになりアクセス制限を突破できない

Question

### 前提 Python＋Selenium＋Torを使って、データ収集目的で、とあるサイトのスクレイピングのプログラムを実装しています。画面のボタン押下イベントにより、表示が切り替わるページのため、Seleniumが必須なサイトです。全部で3,000件ほどの詳細ページの情報を取得したいのですが、途中までは想定通りに動くものの、約100件目程に差し掛かると、403エラーが表示され接続できなくなります。 ↓`driver.page_source` の結果 ```html 403 Forbidden

Forbidden

You don't have permission to access /buy/search/detail/ on this server.

``` 腑に落ちない点としては、 Torプロキシを介しての接続のため、Tor再起動するとIPアドレスが変わって、接続できるかと思いましたが、 IPを変更しても改善されず、更に加えて、通常のChromeブラウザでの該当URLへのアクセスも拒否されるようになり、突破口を見いだせない状況で質問させて頂いた次第です。 ※Bot対策を行なっているサイトに、過度なクローリングは控えなければならないことは重々承知しております🙇‍♂️ ### 実現したいこと * アクセス制限を受けず、安定的にクローリングが行える状態を実現したい ### 発生している問題・エラーメッセージ Seleniumでアクセスした場合 ``` Bad Request Your browser sent a request that this server could not understand. ``` 通常のChromeブラウザからアクセスした場合 ``` Forbidden You don't have permission to access /buy/ on this server. ``` ### 該当のソースコード ```python # メイン処理 DOMAIN = "https://www.janpara.co.jp/" START_URL = "https://www.janpara.co.jp/buy/search/result/?KEYWORDS=&OUTCLSCODE=46&CLSCODE=&LINE=24" PROXY = 'localhost:9050' if __name__ == '__main__': options = webdriver.chrome.options.Options() options.add_argument(f'--proxy-server=socks5://{PROXY}') chrome_service = fs.Service(executable_path="/Users/nakazono/Downloads/chromedriver") driver = webdriver.Chrome(service=chrome_service, options=options) driver.implicitly_wait(3) nextlink = None i= 0 results = [] while True: i += 1 logger.info(f"{i}ページ目===========================================================================") driver.get(nextlink or START_URL) soup = BeautifulSoup(driver.page_source, 'html.parser') detail_urls = get_detail_urls(soup) for detail_url in detail_urls: try: # ここで要素の情報を取得する except Exception as e: print(e) continue # 次ページへ nextlink = get_nextlink("/buy/search/result/" ,soup) if not nextlink: break class TorControlPortClient: control_address: str control_port: int control_password: Optional[str] def __init__( self, control_address: str, control_port: int, control_password: Optional[str] = None ): self.control_address = control_address self.control_port = control_port self.control_password = control_password def change_connection_ip(self, seconds_wait: int = 5) -> bool: time.sleep(seconds_wait) try: tor_connection = socket.create_connection((self.control_address, self.control_port)) password_value = self.control_password if self.control_password is not None else '' message = f'AUTHENTICATE "{password_value}" SIGNAL NEWNYM ' tor_connection.send(message.encode('utf-8')) response = tor_connection.recv(1024) if response != b'250 OK 250 OK ': sys.stderr.write('Unexpected response from Tor control port: {} '.format(response)) return False return True except Exception as e: print(e) sys.stderr.write('Error connecting to Tor control port: {} '.format(repr(e))) return False @retry(wait=wait_exponential(multiplier=1, min=3, max=50)) def get_html(url): """ HTTPリクエストしてBeautifulSoupオブジェクトに変換する """ headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.97 Safari/537.36" } proxies = { 'http': 'socks5://localhost:9050', 'https': 'socks5://localhost:9050', } time.sleep(2) res = requests.get(url, headers=headers, proxies=proxies) print(res.content) if 300 <= res.status_code <= 599: tor_control_port_client = TorControlPortClient('localhost', 9051, 'test1234') tor_control_port_client.change_connection_ip(seconds_wait=3) print("IP Address is Changed") raise Exception("IPチェンジ！！！") soup = BeautifulSoup(res.content, 'html.parser') return soup def get_detail_urls(soup): items = soup.select(".search_item > h3 > a[href]") for item in items: yield item.get("href") def get_nextlink(path, soup): try: nextlink = DOMAIN + path + soup.select_one(".pageLink[title='次ページ']").get("href") except Exception as e: print("Last Page") nextlink = None return nextlink ``` ### 試したこと * Torが機能しているか [IPアドレス確認サイト](https://www.cman.jp/network/support/go_access.cgi)で確認した * `headless`, `no-sandbox` オプションなどを付与してみたが結果は変わらなかった * ネットの接続回線とプロキシの有無を切り替えると結果は以下となった。 |回線|プロキシ|結果| |:--|:--:|--:| |Wifi|有|×| |Wifi|無|×| |テザリング|有|×| |テザリング|無|○| ### 補足情報（FW/ツールのバージョンなど） * python3.8

Answer

BANされたんじゃないですか

回線	プロキシ	結果
Wifi	有	×
Wifi	無	×
テザリング	有	×
テザリング	無	○

前提

実現したいこと

発生している問題・エラーメッセージ

該当のソースコード

試したこと

補足情報（FW/ツールのバージョンなど）

関連した質問