robots.txtの「Disallow: /search/site/」が禁止している内容

スクレイピングに際し、下記のrobots.txtを読みましたが禁止している内容がわかりませんでした。

記載内容
User-agent: *
Disallow: /search/site/

下記から始まるURLがスクレイピング禁止になるという理解ですが、該当するページが見つかりません。
http://www.nikkei.com/search/site/

スクレイピングの前に、念のため禁止されているページを確認したいと考えています。
robots.txtから具体的に禁止されているページの一例を知る方法はありますでしょうか？
よろしくお願いいたします。

行動規範の内容に同意します

回答1件

ベストアンサー

クロールをブロックするディレクトリやページを記入するので、
/search/site/の中に、ファイルが存在した場合もブロック対象になります。
実際にこのディレクトリ中にファイルがあるかはわからないですし、
あったとしてもページが表示されないよう制限をかけている可能性もあります。

投稿2020/05/22 18:37

総合スコア239

2020/05/23 09:47

禁止されているページを知ることが出来ない場合もあるということですね。よくわかりました。

行動規範の内容に同意します

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.35%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

関連した質問