スクレイピングについて

私は現在webスクレイピングを勉強しています。
スクレイピングの対象とするサイトは毎回かかさずrobots.txtを確認し、問題ないところだけを練習のサイトとしています。

そこで疑問に思ったのですが、
私の認識ではrobots.txtではクロールして欲しくないところを指定していると思います。私の認識ではクロールとは情報を抜き取ることを意味しており、robots.txtでは情報を抜き取る行為のみを限定していると言うことなのでしょうか。

つまり、情報を抜き取らなければプログラムでdisallowのサイトに出入りして良いと言うことなのでしょうか。(例えば、ログインを自動で行ったり、自動で申し込みをする等)
もちろん明らかな負荷をかける行為等は除きます。

屁理屈かもしれませんが、私の解釈について誤りがあったら教えていただきたいです。

退会済みユーザー

2021/09/25 04:50

相手のサイトの所有者・管理者に許可を得ることをお勧めします。逆の立場だったとしたらあなたはどう思いますか？　クローラを作ってアクセスしたら業務妨害とかで逮捕された事例もありますのでお気を付けください。

meg_

2021/09/25 05:07

サイトの利用規約は読まれていますか？

gentaro

2021/09/25 05:36

そもそも何か問題が起きるとしたら民事の争いになるから、相手がどう考えるか次第でしょ。刑事事件みたいに裁判所が令状を発行して云々と違って、相手が迷惑だと思えばどんな理由で訴えてくるのか事前に予測なんてできないんだから、自分で「屁理屈」と思ってる論を通しても相手も「屁理屈」と思えば訴えてくる可能性があるだけで、無関係の他人にその判断を求めてどうすんの？

gentaro

2021/09/25 05:43

心配なら弁護士に相談して事前にどんな法的リスクがあるのか教えてもらって、もし訴えられても受けて立つ、ぐらいの準備をすればいいんじゃない？法律の専門家に聞くならいざしらず、エンジニア向けのサイトで質問すること自体がお門違い。

makamaka

2021/09/25 08:07

ご回答ありがとうございます。必要なら弁護士等に確認することも視野に行かされたいと思います。

退会済みユーザー

2021/09/25 09:17 編集

> 必要なら弁護士等に確認することも視野に行かされたいと思います。その前にサイトの管理者に許可を得ましょう。あなたがサイトの管理者だったとして、どこの馬の骨とも分からない者が、勝手にクローラなどを使ってアクセスしてきたらどう思うか、それを考えればやらないという結論になるのでは？

行動規範の内容に同意します

回答1件

ベストアンサー

robots.txt ファイルとは、検索エンジンのクローラに対して、サイトのどの URL にアクセスしてよいかを伝えるものです。

robots.txt の概要

クローラーとは、各検索サイトや研究機関がWebサイトの情報を収集するために利用している自動巡回ロボットのことです。

クローラー（Crawler）

クローラーとは検索エンジンが検索の順位を決めるための要素を、サイトを巡回して収集してくるロボットのことです。這い回るという意味の【crawl】から、このように呼ばれています。

クローラーとは? 検索エンジンの仕組みを解説します！

robots.txtは検索エンジンに対してのもので、クローラーとは一般的には検索エンジンのことを指します。ということは下記質問者さんのように個人でスクレイピングしたい人に対するものではないと思われます。スクレイピングを検討する際は各サイトの利用規約を確認し、スクレイピング等による情報収集が禁止されていないかを確認するべきだと思います。

私は現在webスクレイピングを勉強しています。
スクレイピングの対象とするサイトは毎回かかさずrobots.txtを確認し、問題ないところだけを練習のサイトとしています。

投稿2021/09/25 08:26

meg_

総合スコア11031

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.29%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する