状況
Scrapingコードを書いています。
SeleniumでChrome Driverを動かして、下記サイトから、東京都の介護事業者の情報を取得整理したいと考えています。
https://www.kaigokensaku.mhlw.go.jp/13/index.php?action_kouhyou_pref_search_list_list=true
text
1User-agent: * 2Disallow: /shuukei 3Disallow: /kanri 4Disallow: /houkoku 5Disallow: /seikatu_kanri 6Disallow: /err 7Disallow: /upload 8
####悩み
整理したい情報が、介護事業者それぞれの情報なので、「詳細情報を見る」ボタンをクリックしていかなければなりません。
加えて、事業者は何千事業者もいます。
処理としては、順に「詳細情報を見る」をクリックしていくやり方になると思うのですが、そういった処理はサーバーに負荷がかかるため、
適切なアクセス間隔を設定せよ、ということは認識しております。
####質問
マナーを守ったスクレイピングを行う場合、
①上記の様にrobots.txtを確認し守る
②UAに連絡先を記載する
③クリックした後に、最低でtime.sleep(1)か、望ましくは或いは数秒待つ
で、認識としては十分なのでしょうか?
回答3件
あなたの回答
tips
プレビュー