質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

88.04%

プロキシ(proxy)経由のスクレイピング(Selenium&Chrome)でhtml構造を取得できない

受付中

回答 0

投稿 編集

  • 評価
  • クリップ 0
  • VIEW 718

score 7

`

前提・実現したいこと

Pythonでウェブサイトをプロキシ経由でスクレイピングし、情報を取得するプログラムを作成したいです。

発生している問題・エラーメッセージ

通常のネットワークではうまく動作しています。しかし、プロキシを経由して実行すると、ウェブサイトは表示されるもののhtml構造が読み取れなくなります。 ウエブサイトは手動で操作ができるうえ、開発者ツールで見ても通常のネットワークの要素と相違はありません。 原因として「BeautifulSoup(html,"html.parser")」でオプションの記述等が不足しているのではないかと疑っています。

試したこと

ブラウザが確実に読み込まれてから処理するよう前後に十分な待機を設定してみましたが、結果に相違はありませんでした。

使用している言語・ブラウザ等

python3.6, Chrome, Selenium, luminati(レンタルプロキシ)

該当のソースコード

# coding: utf-8
import time
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.chrome.options import Options
from bs4 import BeautifulSoup
import random
import requests
from threading import Thread
import pyautogui
#プロキシ認証
from selenium.webdriver.common.proxy import Proxy, ProxyType
from selenium.webdriver.common.proxy import *

#オッズ取得
#対象URL作成
url = "https://www.boatrace.jp/owpc/pc/race/odds3t?rno=12&jcd=01&hd=20200814"

# プロキシ設定
# install luminati (https://luminati.io) proxy manager & run
PROXY = 'zproxy.lum-superproxy.io:xxxxx'

proxy = Proxy()
proxy.http_proxy = PROXY
proxy.ftp_proxy = PROXY
proxy.sslProxy = PROXY
proxy.no_proxy = "localhost"  # etc... ;)
proxy.proxy_type = ProxyType.MANUAL

# limunati customer info
proxy.socksUsername = 'hogehoge'
proxy.socksPassword = "hogehoge"

capabilities = webdriver.DesiredCapabilities.CHROME
proxy.add_to_capabilities(capabilities)

#ヘッダレスでページにアクセス
options = Options()
# ヘッドレスモードを有効にする(次の行をコメントアウトすると画面が表示される)。
#ヘッダレスではプロキシ認証を回避できない?ためコメントアウト
# options.add_argument('--headless')
# options.add_argument('--disable-gpu')
# options.add_argument('--user-agent=hogehoge')
# options.add_argument('--blink-settings=imagesEnabled=false')
# options.add_argument("--disable-extensions")
# options.add_argument('--disable-desktop-notifications')


# ChromeのWebDriverオブジェクトを作成する。
driver = webdriver.Chrome("C:\PycharmData\chromedriver.exe", options=options, desired_capabilities=capabilities)
driver.get(url)
html = driver.page_source.encode('utf-8')

# ランダム Delay
time.sleep(random.uniform(10, 12))

#プロキシ認証入力
def enter_proxy_auth(proxy_username, proxy_password):
    pyautogui.typewrite(proxy_username)
    pyautogui.press('tab')
    pyautogui.typewrite(proxy_password)
    pyautogui.press('enter')

Thread(target=enter_proxy_auth, args=(proxy.socksUsername, proxy.socksPassword)).start()

# ランダム Delay
time.sleep(random.uniform(30, 32))
###読込完了を待つ必要ありーーーーーーーーーー

#要素を取得
soup = BeautifulSoup(html,"html.parser")
row = soup.find_all(class_="oddsPoint")
print(soup)
print(row)

出力

    #ソースコードより抜粋
    #要素を取得
    soup = BeautifulSoup(html,"html.parser")
    row = soup.find_all(class_="oddsPoint")
    print(soup)
    print(row)
  #出力    
  <html><head></head><body></body></html>
  []
  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 過去に投稿した質問と同じ内容の質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

質問への追記・修正の依頼

  • otn

    2020/08/15 20:34

    と言うことは質問にお書きの
    > 原因として「BeautifulSoup(html,"html.parser")」でオプションの記述等が不足しているのではないかと疑っています。
    では無いですよね。

    特殊なサイトなのかと気になったので、やってみましたが、再現しません。正常に取得できる。
    認証無しProxyですが。Proxy+Chrome+Seleniumという事だけであれば問題ありません。

    他のサイトはどうなのでしょう?
    あとはFirefoxでやってみるとか。

    キャンセル

  • logos

    2020/08/16 01:49 編集

    ということは認証時に問題が発生しているのでしょうか。
    他サイトも同様です。

    Firefoxは試みたのですが、firefoxでプロキシ認証を突破する方法が分からず、
    ご教示頂けますと幸いです。

    キャンセル

  • otn

    2020/08/16 02:11

    > ということは認証時に問題が発生しているのでしょうか。
    認証無しProxyなので、認証なしです。認証有りProxyが無いので。

    > Firefoxは試みたのですが、firefoxでプロキシ認証を突破する方法が分からず、
    ご教示頂けますと幸いです。

    ブラウザでの認証が面倒なら、認証無しProxyを作って、認証ありProxyに中継するのでしょうか。

    キャンセル

まだ回答がついていません

15分調べてもわからないことは、teratailで質問しよう!

  • ただいまの回答率 88.04%
  • 質問をまとめることで、思考を整理して素早く解決
  • テンプレート機能で、簡単に質問をまとめられる

関連した質問

同じタグがついた質問を見る