気になっていること
スクレイピングをする中で、下記のrobots.txtを読んでいます。
Wall Street Journal Onlineのrobots.txt
こちらでは「Disallow: /search*」と書かれているのですが、この受け取り方についてちょっとわからないところがあります。例えば、「Disallow: /search*」と「Disallow: /search/*」はどう違うのでしょうか?
もうちょっと具体的な質問をすると、
「Disallow: /search*」の場合下記のURLのうちどれがアウトになるのでしょうか?
①https://www.wsj.com/search-aaa
②https://www.wsj.com/search/aaa
③https://www.wsj.com/aaa/search-bbb
④https://www.wsj.com/aaa/search/bbb
ご回答よろしくお願いします。
ちなみにスクレイピング関連でこちらの質問も投げています、わかる方いらっしゃいましたらご回答お願いします。
【Python】BeautifulSoupでのスクレイピングでタグがうまく取得できない。
回答1件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
退会済みユーザー
2018/04/23 21:43