私は現在webスクレイピングを勉強しています。
スクレイピングの対象とするサイトは毎回かかさずrobots.txtを確認し、問題ないところだけを練習のサイトとしています。
そこで疑問に思ったのですが、
私の認識ではrobots.txtではクロールして欲しくないところを指定していると思います。私の認識ではクロールとは情報を抜き取ることを意味しており、robots.txtでは情報を抜き取る行為のみを限定していると言うことなのでしょうか。
つまり、情報を抜き取らなければプログラムでdisallowのサイトに出入りして良いと言うことなのでしょうか。(例えば、ログインを自動で行ったり、自動で申し込みをする等)
もちろん明らかな負荷をかける行為等は除きます。
屁理屈かもしれませんが、私の解釈について誤りがあったら教えていただきたいです。
相手のサイトの所有者・管理者に許可を得ることをお勧めします。逆の立場だったとしたらあなたはどう思いますか? クローラを作ってアクセスしたら業務妨害とかで逮捕された事例もありますのでお気を付けください。
サイトの利用規約は読まれていますか?
そもそも何か問題が起きるとしたら民事の争いになるから、相手がどう考えるか次第でしょ。
刑事事件みたいに裁判所が令状を発行して云々と違って、相手が迷惑だと思えばどんな理由で訴えてくるのか事前に予測なんてできないんだから、自分で「屁理屈」と思ってる論を通しても相手も「屁理屈」と思えば訴えてくる可能性があるだけで、無関係の他人にその判断を求めてどうすんの?
心配なら弁護士に相談して事前にどんな法的リスクがあるのか教えてもらって、もし訴えられても受けて立つ、ぐらいの準備をすればいいんじゃない?
法律の専門家に聞くならいざしらず、エンジニア向けのサイトで質問すること自体がお門違い。
ご回答ありがとうございます。
必要なら弁護士等に確認することも視野に行かされたいと思います。
> 必要なら弁護士等に確認することも視野に行かされたいと思います。
その前にサイトの管理者に許可を得ましょう。あなたがサイトの管理者だったとして、どこの馬の骨とも分からない者が、勝手にクローラなどを使ってアクセスしてきたらどう思うか、それを考えればやらないという結論になるのでは?
回答1件
あなたの回答
tips
プレビュー