編集履歴

質問編集履歴

問題の要点を抽出・見やすく

2019/04/08 08:25

投稿

JIN3X

スコア84

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -1,96 +1,59 @@
 selenium(python)でスクレイピングをしておりますが、IPアドレスで制限がかかるのでProxy経由でやりたいと考えております。
+LinuxのCUI環境のため、ヘッドレスしか使えないのですが、Proxyを設定するとうまく表示されないです。
-下記のサイトを参考にproxyをセットしておりますが、どのページをターゲットにしても白紙しか表示されません。
+下記の2点から、ChromeのProxy設定時に何か不具合があるのではないかと考えております。
+①　同プロキシ経由で、requestsであればデータが取得できる。
-http://www.inmyzakki.com/entry/2017/08/30/183504
+②　Proxyのオプションを付けなければ、Chromeでデータ取得できる。
-何が問題かご存知でしたら教えていただければ幸いです！
+何が問題かご存知でしたら教えていただければ幸いです。
-なお、ソースをこちらで変更した点として、chromeをヘッドレスにしたのとchromePathは不要なので、消しました。跡は同じソースなのですが、BeautifulSoupはソースコードを取得可能ですが、chromeはうまく動かないです。
+なお環境は下記のとおりです。
+<環境>
+-
-環境は、CentOS Linux release 7.6.1810 (Core)です。
+CentOS Linux release 7.6.1810 (Core)
+-
-pythonは3.6です。
+python3.6
-＜出力＞
-Nice Proxy: http://167.99.1.61:80
-スクレイピング
-<html xmlns="http://www.w3.org/1999/xhtml"><head></head><body></body></html>
-＜ソース＞
+```python
+################インポート################
 import requests
 from bs4 import BeautifulSoup
 from selenium import webdriver
-from time import sleep
 from selenium.webdriver.chrome.options import Options
-import random
+################インポート################
-import re
+# ターゲットURL
 targetUrl = 'https://www.yahoo.co.jp'
-PermissionTime = 5
+# プロキシURL
-intervalTime = 600
+Proxy = 'http://167.99.1.61:80'
+################ requestsでのスクレピング ################
+proxies = {'http': Proxy}
+html = requests.get(targetUrl, proxies=proxies)
-proxyUrl = 'http://www.cybersyndrome.net/plr6.html'
+soup = BeautifulSoup(html.content, 'html.parser')
+# ちゃんとスクレイピング出来てるか表示
+print("requestsスクレイピング")
+print(soup)
+########################################################
-def getProxy():
+################ ヘッドレスchromeでのスクレイピング ################
-    options = Options()
+options = Options()
+options.add_argument("--proxy-server=" + good_proxy)
-    options.add_argument('--headless')
+options.add_argument('--headless')
-    driver = webdriver.Chrome(chrome_options=options)
+driver = webdriver.Chrome(chrome_options=options)
-    driver.get(proxyUrl)
+driver.get(targetUrl)
-    soup = BeautifulSoup(driver.page_source.encode('utf-8'), 'html.parser')
+soup = BeautifulSoup(driver.page_source.encode('utf-8'), 'html.parser')
-    data = soup.find_all('td', id=re.compile("^n"))　#正規表現でIDを取得
-    driver.close()
+driver.close()
-    proxyList = []
-    for proxyT in data:
-        proxyList.append('http://'+proxyT.text)
-    return proxyList
-def is_bad_proxy(pip):
+# ちゃんとスクレイピング出来てるか表示
-    try:
-        options = Options()
-        options.add_argument("--proxy-server=" + pip)
-        driver = webdriver.Chrome(chrome_options=options)
-        driver.set_page_load_timeout(PermissionTime)
-        driver.get(targetUrl)
-        driver.close()
-    except:
-        driver.close()
-        print("タイムアウト")
+print("Chromeスクレピング")
-        return True
-    return False
-def checkProxy(proxys):
-    temp = None
-    for item in proxys:
-        if is_bad_proxy(item):
-            print("Bad Proxy:", item)
-        else:
-            print("Nice Proxy:", item)
-            temp = item
-            break
-    else:
-        return None
-    return temp
-while(True):
-    proxys = getProxy()
-    good_proxy = checkProxy(proxys)
-    if good_proxy is not None:
-        proxies = {'http': good_proxy}
-        html = requests.get(targetUrl, proxies=proxies)
-        soup = BeautifulSoup(html.content, 'html.parser')
-        options = Options()
-        options.add_argument("--proxy-server=" + good_proxy)
-        options.add_argument('--headless') #変更点！！！！
-        driver = webdriver.Chrome(chrome_options=options)
-        driver.get(targetUrl)
-        soup = BeautifulSoup(driver.page_source.encode('utf-8'), 'html.parser')
-        driver.close()
-        print(soup)
+print(soup)
+#################################################################
-    else:
+```
-        print("条件にマッチするプロキシがありません。")
+```output
-    sleep(intervalTime)
+requestsスクレイピング
+:
+ページソース（省略）
+:
+Chromeスクレピング
+<html xmlns="http://www.w3.org/1999/xhtml"><head></head><body></body></html>
+```

ソースを見やすく

2019/04/08 08:25

投稿

JIN3X

スコア84

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -14,7 +14,6 @@
 <html xmlns="http://www.w3.org/1999/xhtml"><head></head><body></body></html>
 ＜ソース＞
-################インポート################
 import requests
 from bs4 import BeautifulSoup
 from selenium import webdriver
@@ -22,59 +21,35 @@
 from selenium.webdriver.chrome.options import Options
 import random
 import re
-################インポート################
-################可変値################
 targetUrl = 'https://www.yahoo.co.jp'
 PermissionTime = 5
 intervalTime = 600
-################可変値################
-################固定値################
-# プロキシサイトのURL
 proxyUrl = 'http://www.cybersyndrome.net/plr6.html'
-################固定値################
-################関数群################
-# プロキシのリストをスクレイピングする関数
 def getProxy():
-    # seleniumの設定、ヘッダーレスモードとクロームのパスを指定
     options = Options()
     options.add_argument('--headless')
     driver = webdriver.Chrome(chrome_options=options)
-    # サイトへアクセス
     driver.get(proxyUrl)
-    # BeautifulSoupさんにhtmlのソースを見やすくしてもらう
     soup = BeautifulSoup(driver.page_source.encode('utf-8'), 'html.parser')
     data = soup.find_all('td', id=re.compile("^n"))　#正規表現でIDを取得
-    # クローム閉じる
     driver.close()
-    # プロキシを整形して配列に入れる
     proxyList = []
     for proxyT in data:
         proxyList.append('http://'+proxyT.text)
     return proxyList
-# プロキシの選定関数
 def is_bad_proxy(pip):
     try:
-        # seleniumの設定、プロキシを通してクロームのパスを指定
         options = Options()
         options.add_argument("--proxy-server=" + pip)
-        # options.add_argument('--headless') stackflow曰くヘッダーレスとプロキシは同時で使用できないらしい
         driver = webdriver.Chrome(chrome_options=options)
-        # webサイトへのタイムアウト時間を設定。もしこの時間内にアクセスできないならexceptに入る
         driver.set_page_load_timeout(PermissionTime)
-        # アクセスして閉じる
         driver.get(targetUrl)
         driver.close()
     except:
@@ -83,7 +58,6 @@
         return True
     return False
-# プロキシのリストをまわして、いいプロキシを見つける。見つからなかったらNoneを返す
 def checkProxy(proxys):
     temp = None
     for item in proxys:
@@ -96,44 +70,27 @@
     else:
         return None
     return temp
-################関数群################
-################メイン################
-# 無限ループ
 while(True):
-    # プロキシを取得していいプロキシを見つける
     proxys = getProxy()
     good_proxy = checkProxy(proxys)
-    # いいプロキシがあったら処理する
     if good_proxy is not None:
-        ################スクレイピングする処理(javascriptない場合)################
         proxies = {'http': good_proxy}
         html = requests.get(targetUrl, proxies=proxies)
         soup = BeautifulSoup(html.content, 'html.parser')
-        # ちゃんとスクレイピング出来てるか表示
-        # print(soup)
-        ################スクレイピングする処理(javascriptない場合)################
-        ################スクレイピングする処理(javascriptある場合################
         options = Options()
         options.add_argument("--proxy-server=" + good_proxy)
         options.add_argument('--headless') #変更点！！！！
-        # options.add_argument('--headless') stackflow曰くヘッダーレスとプロキシは同時で使用できないらしい
         driver = webdriver.Chrome(chrome_options=options)
         driver.get(targetUrl)
         soup = BeautifulSoup(driver.page_source.encode('utf-8'), 'html.parser')
         driver.close()
-        # ちゃんとスクレイピング出来てるか表示
         print(soup)
-        ################スクレイピングする処理(javascriptある場合)################
     else:
         print("条件にマッチするプロキシがありません。")
-    sleep(intervalTime)
+    sleep(intervalTime)
-################メイン################