質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.50%
PHP

PHPは、Webサイト構築に特化して開発されたプログラミング言語です。大きな特徴のひとつは、HTMLに直接プログラムを埋め込むことができるという点です。PHPを用いることで、HTMLを動的コンテンツとして出力できます。HTMLがそのままブラウザに表示されるのに対し、PHPプログラムはサーバ側で実行された結果がブラウザに表示されるため、PHPスクリプトは「サーバサイドスクリプト」と呼ばれています。

Q&A

解決済

1回答

1814閲覧

simple_html_dom.phpでのスクレイピング時に環境変数をセットする方法について

ebsffzal

総合スコア107

PHP

PHPは、Webサイト構築に特化して開発されたプログラミング言語です。大きな特徴のひとつは、HTMLに直接プログラムを埋め込むことができるという点です。PHPを用いることで、HTMLを動的コンテンツとして出力できます。HTMLがそのままブラウザに表示されるのに対し、PHPプログラムはサーバ側で実行された結果がブラウザに表示されるため、PHPスクリプトは「サーバサイドスクリプト」と呼ばれています。

0グッド

0クリップ

投稿2018/01/09 14:19

いつも大変参考にさせていただいています。

件名について、有識者様へ質問です。

simple_html_dom.phpを使い、とあるサイトをスクレイピングしていましたが、ある日から相手先サーバからアクセスブロックされるようになりました。

やっている方法は極めて単純なもので、下記のようにして相手先の情報を取得しています。

php

1$sUrl = "ここに目的のサイトURL"; 2$html = file_get_html($sUrl);

■現象
先日、スクレイピングをしていたサーバで、異変に気づいたので、調べてみると、file_get_htmlするタイミングでNULLが帰ってくるようになりました。
ログを見ると、相手先サーバからブロックされている形跡がありました。

■試したこと
試しに、プログラム全体を別サーバへ設置し、動作させると問題なくデータ取得ができました。

■質問
そこで、有識者様にお聞きしたいのですが、simple_html_domで、実行時の環境変数(ユーザエージェント?)を指定し、違うサーバから動作しているようにセッティングすることはできるでしょうか?

サーバを変更するとうまくいくので、環境変数ではなく、実行サーバのIPアドレスをチェックされているのかもしれませんが、なんとか回避する方法を模索しています。(できれば別サーバは使わない方向です)

以上になります。どうぞよろしくお願いいたします。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

ベストアンサー

ソースを見る限り、file_get_contents()を使用しているので、UAの指定はfile_get_htm()の第三引数の$contextを指定してやれば行けそうです。
[PHP]file_get_contents()でユーザエージェントを偽装する

ただ、IPで制限されている可能性が非常に高いと思われるので、あんまり効果は無いと思いますし、一時的にあったとしてもすぐに制限されることでしょう。

相手側サーバがブロックしているということは、相手はアタックされていると認識していることなので、小手先の対策ではなく、なぜブロックされたかということを法令や相手サイトのビジネスモデル、ポリシー、利用規約などと照らし合わせて考える必要があります。

投稿2018/01/09 15:14

編集2018/01/09 15:15
tanat

総合スコア18709

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.50%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問