HTTPリクエストについて

ブラウザ経由でURLに直アクセスするとデータが表示される、
file_get_contents("URL")だと403 Forbiddenとなります
ReferrerだったりUserAgentはしっかり設定して投げていますが、
その他のブラウザ経由かの識別情報による判定でNGになってると思われます
ReffererかUserAgentしか頭にないのですが
その他挙げるとしたら何があるでしょうか？クッキーでしょうか？

退会済みユーザー

2022/12/12 02:58 編集

ご存じかも知れませんがおさらい 403エラーは認可のエラー、要はコンテンツにアクセスする権限がないってことです > ブラウザ経由でURLに直アクセスすると接続したいサイトの前提が分かりませんが、そのサイトはログイン機能はありますか？ログイン機能があるのでしたら、CookieもしくはHTTPのヘッダーの可能性がありますブラウザの開発者ツールを使うことで、Cookie含めどのようなリクエストがサーバに送られているか確認できますそれ以外とすればユーザ操作が必要のないreCAPTCHAでロボット判定されているかも知れません対処法はあるのですがスクレイピングネタはグレーなのでこの場で対処方法は控えます

popori

2022/12/12 03:05 編集

ログインサイトであれば当然取得できないものと考えますが、未ログインで取得できる情報であり、reCAPTCHA云々ではないと思われます

CHERRY

2022/12/12 03:12

JavaScript でページを生成している場合等もあり、Webサイトによりケースバイケースと思います。 file_get_contents 以外の方法( curl や selenium 等)でアクセスすると状況は、どうなりますか？

popori

2022/12/12 03:20

seleniumはやったことがありませんが file_get_contentsとcurlは同じ結果です

退会済みユーザー

2022/12/12 07:08

> 未ログインで取得できる情報であり、reCAPTCHA云々ではないと思われます細かな説明を割愛して誤解を招いたかも知れませんが、ユーザ操作が必要のないreCAPTCHAとは poporiさんの仰るJavaScriptでページ生成する系の一種ですログインが必要かどうかは抜きにして、画面に表示されない（利用者に見えない）reCAPTCHAをJSで動かしてロボット判定するサイトもありますこの手の場合、SeleniumやPuppeteerなどのブラウザもしくはヘッドレスブラウザでJSを実行しないとスクレイピングできませんまずは開発者ツールで、ブラウザからサーバにどのようなリクエストが送信されているのか確認されてはどうでしょうか