プロキシ経由でスクレイピングをしたいと考えています。
具体的には「A」というメインサーバーから
「B」というプロキシサーバー経由で
Googleの検索結果をスクレイピングしたいです。
PCを立ち上げずに、
CRONなどでAサーバー内のプログラムを実行し、
Bを通してスクレイピングするイメージです。
とりあえずYahoo!のトップページを取得する
以下のプログラムを書きました(Aサーバーに置くプログラムです)。
━━━━━━━━━━━━━━━━━━
━━━━━━━━━━━━━━━━━━
すると以下のようなエラーが表示されました。
━━━━━━━━━━━━━━━━━━
Warning: file_get_contents(http://www.yahoo.co.jp/): failed to open stream: HTTP request failed! HTTP/1.0 403 Forbidden in /home/xxx/www/proxy/index.php on line 20
━━━━━━━━━━━━━━━━━━
Bのプロキシサーバーは、
さくらVPSとSquidを使って自分で構築しています。
ブラウザでBプロキシ経由のアクセスに設定すると、
アクセスは正常にBのIPアドレスになりますので、
B自体は動作しているかと思います。
AサーバーでもBプロキシサーバーでも、
file_get_contentsは動作していました。
プロキシ経由で取得しようとすると、
このようなエラーが発生します。
こちら何か分かることはありますでしょうか。
何かあれば、教えていただけますと幸いです。
何卒よろしくお願いいたします。
回答3件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2015/08/13 16:19