【Python】robots.txtの「Disallow: /search*」と「Disallow: /search/*」は違いますか？

スクレイピングをする中で、下記のrobots.txtを読んでいます。

こちらでは「Disallow: /search*」と書かれているのですが、この受け取り方についてちょっとわからないところがあります。例えば、「Disallow: /search*」と「Disallow: /search/*」はどう違うのでしょうか？

もうちょっと具体的な質問をすると、
「Disallow: /search*」の場合下記のURLのうちどれがアウトになるのでしょうか？

ご回答よろしくお願いします。

ちなみにスクレイピング関連でこちらの質問も投げています、わかる方いらっしゃいましたらご回答お願いします。
【Python】BeautifulSoupでのスクレイピングでタグがうまく取得できない。

行動規範の内容に同意します

回答1件

ベストアンサー

/search*は/searchから始まるURL、 /search/*は/search**/**から始まるURLがアウトになります。(後者にはsearchの後にスラッシュが付いているのがポイント)

/search*指定の場合は1と2、/search/*指定の場合は2のみがアウトになります。

余談ですが、Pythonには標準ライブラリの中にrobots.txtをパースする機能がある(urllib.robotparser)ので、そちらを使ってみてもいいかもしれません。

投稿2018/04/22 19:12

総合スコア41

退会済みユーザー

2018/04/23 21:43

回答ありがとうございました。 urllib.robotparser なんてのがあるんすね！！ありがとうございます！！みてみます。

行動規範の内容に同意します

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

【Python】robots.txtの「Disallow: /search」と「Disallow: /search/」は違いますか？