質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.35%
Pylons

Pylonsは、Pythonで書かれたオープンソースのWebアプリケーションフレームワークです。 主要コンポーネントの一部は、Ruby on Railsの機能をPythonで再実装したものです。

Q&A

解決済

1回答

746閲覧

スクレイピングについて

makamaka

総合スコア21

Pylons

Pylonsは、Pythonで書かれたオープンソースのWebアプリケーションフレームワークです。 主要コンポーネントの一部は、Ruby on Railsの機能をPythonで再実装したものです。

0グッド

1クリップ

投稿2021/09/25 04:29

私は現在webスクレイピングを勉強しています。
スクレイピングの対象とするサイトは毎回かかさずrobots.txtを確認し、問題ないところだけを練習のサイトとしています。

そこで疑問に思ったのですが、
私の認識ではrobots.txtではクロールして欲しくないところを指定していると思います。私の認識ではクロールとは情報を抜き取ることを意味しており、robots.txtでは情報を抜き取る行為のみを限定していると言うことなのでしょうか。

つまり、情報を抜き取らなければプログラムでdisallowのサイトに出入りして良いと言うことなのでしょうか。(例えば、ログインを自動で行ったり、自動で申し込みをする等)
もちろん明らかな負荷をかける行為等は除きます。

屁理屈かもしれませんが、私の解釈について誤りがあったら教えていただきたいです。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

退会済みユーザー

退会済みユーザー

2021/09/25 04:50

相手のサイトの所有者・管理者に許可を得ることをお勧めします。逆の立場だったとしたらあなたはどう思いますか? クローラを作ってアクセスしたら業務妨害とかで逮捕された事例もありますのでお気を付けください。
meg_

2021/09/25 05:07

サイトの利用規約は読まれていますか?
gentaro

2021/09/25 05:36

そもそも何か問題が起きるとしたら民事の争いになるから、相手がどう考えるか次第でしょ。 刑事事件みたいに裁判所が令状を発行して云々と違って、相手が迷惑だと思えばどんな理由で訴えてくるのか事前に予測なんてできないんだから、自分で「屁理屈」と思ってる論を通しても相手も「屁理屈」と思えば訴えてくる可能性があるだけで、無関係の他人にその判断を求めてどうすんの?
gentaro

2021/09/25 05:43

心配なら弁護士に相談して事前にどんな法的リスクがあるのか教えてもらって、もし訴えられても受けて立つ、ぐらいの準備をすればいいんじゃない? 法律の専門家に聞くならいざしらず、エンジニア向けのサイトで質問すること自体がお門違い。
makamaka

2021/09/25 08:07

ご回答ありがとうございます。 必要なら弁護士等に確認することも視野に行かされたいと思います。
退会済みユーザー

退会済みユーザー

2021/09/25 09:17 編集

> 必要なら弁護士等に確認することも視野に行かされたいと思います。 その前にサイトの管理者に許可を得ましょう。あなたがサイトの管理者だったとして、どこの馬の骨とも分からない者が、勝手にクローラなどを使ってアクセスしてきたらどう思うか、それを考えればやらないという結論になるのでは?
guest

回答1

0

ベストアンサー

robots.txt ファイルとは、検索エンジンのクローラに対して、サイトのどの URL にアクセスしてよいかを伝えるものです。

robots.txt の概要

クローラーとは、各検索サイトや研究機関がWebサイトの情報を収集するために利用している自動巡回ロボットのことです。

クローラー(Crawler)

クローラーとは検索エンジンが検索の順位を決めるための要素を、サイトを巡回して収集してくるロボットのことです。這い回るという意味の【crawl】から、このように呼ばれています。

クローラーとは? 検索エンジンの仕組みを解説します!

robots.txtは検索エンジンに対してのもので、クローラーとは一般的には検索エンジンのことを指します。ということは下記質問者さんのように個人でスクレイピングしたい人に対するものではないと思われます。スクレイピングを検討する際は各サイトの利用規約を確認し、スクレイピング等による情報収集が禁止されていないかを確認するべきだと思います。

私は現在webスクレイピングを勉強しています。

スクレイピングの対象とするサイトは毎回かかさずrobots.txtを確認し、問題ないところだけを練習のサイトとしています。

投稿2021/09/25 08:26

meg_

総合スコア10760

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.35%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問