質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
スクレイピング

スクレイピングとは、公開されているWebサイトからページ内の情報を抽出する技術です。

Q&A

解決済

2回答

735閲覧

スクレイピング、robotos.txtの読み/考え方について

ynj

総合スコア17

スクレイピング

スクレイピングとは、公開されているWebサイトからページ内の情報を抽出する技術です。

0グッド

0クリップ

投稿2018/05/18 05:31

webを検索すると"amazonはスクレイピングを許していない"といった記事が引っかかります。

しかし、例えば下記の頁を対象とした場合
https://www.amazon.co.jp/s/ref=nb_sb_noss_2?__mk_ja_JP=%E3%82%AB%E3%82%BF%E3%82%AB%E3%83%8A&url=search-alias%3Daps&field-keywords=%E6%AD%B4%E5%8F%B2

amazonのrobots.txtには"https://www.amazon.co.jp/s/"はDisallowとして記載がありません。

これはスクレイピングをしても構わないという事なのでしょうか?
それとも利用規約にある一文、
「~データ収集・抽出ツールの使用は、一切含まれません。」をもって許されないという事のなのでしょうか?
その他、そもそも考え違いしてる部分などありましたらご指摘頂ければと思います。よろしくおねがいします。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答2

0

検索エンジンが行う網羅的なクローリングと、特定の結果を抽出するために行うスクレイピングは、別物と考えたほうがいいでしょう。

検索エンジンを構築するために行うクローリングはフェアユースにあたり、<meta>robots.txtで排除しない限り、サイト運営者はそれを受忍しているとみなされる、というアメリカでの裁判例もあります。

Instagramのように、「標準的な検索エンジン」については、機械的なアクセスの禁止から除外している例もあります。

Instagramは、自動システムなどを使って本サービスのあらゆるコンテンツ(利用者のプロフィールや写真を含みますが、これに限定されません)を巡回、収集、キャッシングしたり、アクセスしたりすることを禁止しています(ただし、標準的な検索エンジンプロトコルまたはInstagramが明示的に認めている検索エンジンが使用する技術を用いる場合を除きます)。

一方で、特定のサイトから特定の情報を得るために行うスクレイピングは、Amazonの利用規約にある「データマイニング、ロボットなどのデータ収集・抽出ツールの使用」そのものと言って間違いないでしょう。

投稿2018/05/18 06:07

maisumakun

総合スコア145183

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

ynj

2018/05/19 14:41 編集

回答ありがとうございます。 (amazonに限らず)スクレイピングが許可されているかどうかは、 まず利用規約によって、次にrobots.txtによってより詳細を決定する。 という理解で正しいでしょうか?
guest

0

ベストアンサー

クローリング行為は
著作権法の「送信可能化された情報の送信元識別符号の検索等のための複製等(第47条の6)」に該当するかと。

インターネット情報の検索サービスを業として行う者(一定の方法で情報検索サービス事業者による収集を禁止する措置がとられた情報の収集を行わないことなど、政令(施行令第7条の5)で定める基準を満たす者に限る。)は、違法に送信可能化されていた著作物であることを知ったときはそれを用いないこと等の条件の下で、サービスを提供するために必要と認められる限度で、著作物の複製・翻案・自動公衆送信を行うことができる。

投稿2018/05/18 10:01

編集2018/05/18 10:02
umyu

総合スコア5846

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

ynj

2018/05/19 14:39

回答ありがとうございます。 著作権法としても、まずはサービス提供事業者が許可するかどうかということですね。 利用規約>robots.tx、の順に許可/不許可の詳細が決まるという感じでしょうか。
umyu

2018/05/19 15:07 編集

>ynjさんへ そうだと思います。 単純に考えると相手にとって益になる行為かどうかというのも一つの側面かと。 Amazonなどの大手サイトはスクレイピングを利用したサイトに頼らなくても、 多数のユーザーは見込めるので、フリーライダー(ただ乗り)には厳しい側面もあります。 WebAPIを公開して、スクレイピングはそちら経由でアクセスしてください。というサイト(amazon/ツィッター)になります。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問