私はプログラミングの経験はありませんが、SNSでスクレイピングに関する話題を目にすることがあり、その違法性について気になりました。そこで、以下の点について教えていただきたいです。
- スクレイピングとは、「ブラウザで見える情報を自動的に取得する」という理解で合っていますか?
- たとえば、ニュースサイトやECサイトの情報をスクレイピングで収集する行為は、著作権や利用規約に違反する可能性があると感じています。このような行為を安易に行っても問題はないのでしょうか?SNS上でスクレイピングを行ったことを投稿している人を見かけることがありますが、あれは本当に問題ないのでしょうか。もし見つかった場合、罰金や逮捕などの法的なリスクはあるのでしょうか?
- 少し不適切な前提かもしれませんが、仮にスクレイピングを行った場合、サイト運営者に検知されるリスクはあるのでしょうか?技術的にバレなければ実行可能であるようにも思えますが、そうした行為が禁止されていることを理解していても、検知されないのであれば実際に行ってしまう人もいるのではないかと感じています。
一般的なエンジニアとしての視点からご助言いただけますと幸いです。よろしくお願いいたします。
気になる質問をクリップする
クリップした質問は、後からいつでもMYページで確認できます。
またクリップした質問に回答があった際、通知やメールを受け取ることができます。
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
回答4件
#1
総合スコア117755
投稿2025/06/02 02:21
スクレイピング自体には違法性はありません。
つまりWEBサイトは「公開された情報」ですから、それをローカルに保持することはある意味WEBという仕組みの基本だからです。
ネットインフラが脆弱だったころは夜中の通信料が安価なサービスを利用してクローラーというダウンロードツールを使いキャッシュを作成することが流行っていたこともあります。
違法性を判断するポイントは2点
利用許諾上の課題
サイトの利用許諾上の記載に「ダウンロード禁止」とあればそのとおりです。ただし契約は両者の合意が必要ですのでオープンなサイトの場合利用者が規約に明示的に同意していない場合は禁止事項を厳守させることは難しく、そのサイトへのアクセス制限などなんらかの仕組みがあり、たとえばログインするなど読み込むための手順があることが必要です。ただし画像や音声などベルヌ条約で保護されているものはダウンロードはともかく二次利用は自動的に制限されます。
負荷の高い処理
岡崎市立中央図書館事件を参照ください。
仮にオープンなサイトであっても一定数以上のアクセスは悪意をもった不法行為として威力業務妨害とみなされる場合があります。これもその時点の社会情勢やインフラの普及度合いなどを鑑みた司法判断によるので必ずしも違法性があるわけではなく、リスクがあることだけ把握しておいてください。
#2
総合スコア14379
投稿2025/06/02 03:03
~という理解で合っていますか?
あっています。
著作権や利用規約に違反する可能性があると感じています。
可能性はあります。 著作権については個人で楽しむ範囲であれば基本的に問題は無いでしょう。
このような行為を安易に行っても問題はないのでしょうか?
罰金や逮捕などの法的なリスクはあるのでしょうか?
スクレイピングそのもので罪になることは、対象サイトに負荷をかけすぎてサービスに影響を及ぼしでもしない限りならないでしょう。
スクレイピングを行った場合、サイト運営者に検知されるリスクはあるのでしょうか?
同一アドレスから高頻度や定時的なアクセスするなど、人間ではできないような方法であると判断される場合はばれるでしょう。 何の工夫も無しに実行すれば、ブラウザエージェント情報などでもわかるかもしれません。
検知されないのであれば実際に行ってしまう人もいるのではないかと感じています。
いるでしょうね。
スクレイピングすることそのものに法的な問題はありません。論理的にはブラウザで情報を表示するのと変ることはないからです。ただし、自動化によりサービスに負荷をかけるなどの害が及ぶことがあるので、利用規約で禁止されていることもあり、その場合はやるべきではないでしょう。
また、取得したコンテンツについては、手動だろうとスクレイピングだろうと、情報の内容に合った使いかたをすべきです。
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
#3
総合スコア10923
投稿2025/06/02 11:13
スクレイピングとは何か、違法性について
情報をスクレイピングで収集する行為は、著作権や利用規約に違反する可能性があると感じています。
「著作権や利用規約に違反する可能性」はありますがケースバイケースだと思います。利用規約で禁止されている場合もされていない場合もあります。個別の利用規約に従うのが安心だと思います。ですが「違法性」と問われると利用規約で禁止されているから全て違法とも言えないと思います。
このような行為を安易に行っても問題はないのでしょうか?
どのような行為であっても「安易に行って」は駄目だと思います。利用規約等でスクレイピングに限らず様々な禁止行為が制定されていることが多いです。
個人ではなく企業による大規模なものではありますが、米国ではスクレイピングに関する裁判もありました。
米控訴裁「公開情報のスクレイピングは合法」、LinkedInの情報を巡る争い
EBay v. Bidder's Edge
上記は一例ですがスクレイピングする側が負けたり勝ったり両方あるようです。
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
#4
総合スコア86316
投稿2025/06/02 13:46
スクレイピングとは、「ブラウザで見える情報を自動的に取得する」という理解で合っていますか?
概ね合っていると思いますが、「スクレイピング」とは、Amazonなどで「スクレイパー」を検索すると分かりますが、「貼り付いている物を引っぺがす」的な意味です。つまり、HTMLに埋め込まれているデータを取り出すことが該当します。
完全手動、つまり、目でブラウザ画面をみて、画面からコピペ、もしくは目で見た物を手打ちしたのでは、おそらくスクレイピングとは言わないと思いますが、一部手動+一部自動をスクレイピングと呼ぶかどうかは人次第な気がします。
例えば、私は「この作業は滅多にしない」と思うときは、ブラウザでサイトを表示して、ブラウザの開発者ツールを使って、HTMLをコピーしてファイルに保存して、「ローカルのHTMLファイルを読み込んでそこから情報を抜き出すプログラム」を作ることもありますが、これはスクレイピングなのかどうか。
(ブラウザを希望通りに動かして安定して動作するプログラムを書くのは結構面倒なので、これくらい手動の方が楽な事も多い)
私は「HTMLに埋め込まれているデータを取り出すこと」だと思っているので、これもスクレイピングだと思いますが、HTML取得部分が手動なのでそう思わない人もいるでしょう。
スクレイピング自体に違法性はありません。
考えるポイントとしては、
1.アクセス頻度の問題
アクセス頻度が高くて、そのために、他の利用者の利用が困難になったり、システムがダウンしたりすると威力業務妨害の罪になる可能性があります。ただ、これはスクレイピングかどうかは関係なくて、ブラウザでウェブサイトを表示した状態で、F5キー(リロード)を連打することでも同じ罪になる可能性があります。10人でPC10台で同時に1秒間に5回F5キーを押すと秒間50件ですね。小規模サイトだと影響出るかも知れません。
ということで、そこからデータを抜き出しても抜き出さなくても同じ罪なので、スクレイピング固有の問題ではないです。
スクレイピングする人が、意図的に、高頻度でアクセする事はまず無いかと思います。
(金融商品などのリアルタイム時価が欲しい人はもしかしたらするのかも知れませんが、おそらく他の方法があるのでは?このあたりよく知らないですが)
ただし、「1回のアクセスから次のアクセスまで1秒待つ」つもりが、プログラムミスで「1回のアクセスから次のアクセスまで1ミリ秒待つ」になっていると、高頻度アクセスになりますね。sleep(1.0)
で1秒待つと思ったら1ミリ秒だった的な。
なお、「1秒に1回」という「誰が考えても高頻度では無いだろう」というアクセス頻度でも、相手システムにバグや不具合があるとサービス低下やシステムダウンになるかも知れず、実際に「1秒に1回」で逮捕されたケースもあります。yambejpさんの挙げている岡崎市立中央図書館事件。結果は「起訴猶予」で不起訴ですが、システムダウンの原因はシステム不具合なので、本来は「起訴猶予」でなく「嫌疑なし」になるべきです。まあ、種々の大人の事情でしょう。
「1日に1回」であれば、いくらシステム不具合があってもサーバー動作に影響は出ないでしょうね。
2.著作権の問題
これは得た情報を他人に渡すのであれば発生する問題です。
ただし、完全手動で、ブラウザ画面からコピペして公開しても、普通にダウンロードしたファイルを公開しても発生する問題なので、これもスクレイピング固有の問題ではないです。他人の著作物を許可を得ることなく公開や配布すると違法です(著作権法上に例外あり)。取得手段が何であるかは違法・合法には関係ありません。違法な手段で取得していればそれ自体が違法ですが。
なお、他人のサイト上の情報がすべてその他人の著作物と言うことでもないです。「著作物とは何か」をご存じなければ、著作権法を参照してください。
また、得た情報を自分一人でしか使わないのであれば、著作権の問題は関係ありません。家庭内利用などについては著作権法を参照。
ただし、自分一人で見るつもりだったのに、操作ミスや、不正ソフトなどにより、PC上のファイルが外部に流出した場合に、「著作権法に違反した公開・配布」と見做されるのかどうかは知りません。まあこれも、スクレイピングじゃなくて普通にダウンロードした情報についても同じなので、スクレイピング固有の問題ではないです。
3.利用規約の問題
利用規約は法律では無いので、「自動操作によるアクセス禁止」という規約があり、それに違反してもそれで直ちに「違法」ではないです。
もちろん、「違法じゃないので、利用規約違反はしてもいいだろ」という考えは問題があるのは当然ですが。
なお、手動でのブラウザ操作でのデータ抽出と、そのデータの著作権法に違反しない範囲での活用を、禁じる利用規約はおそらく無いだろうし、禁止するのは無理があると思います。何のためのウェブサイトなんだと。
合法な範囲の利用としても、利用規約違反がばれると、アカウント削除とかはあり得るだろうし、もしサイト側に何らかの被害があれば、民事損害賠償訴訟とかの可能性はあります。スクレイピングに限らない規約違反の一般論としては、どんな規約にどのように違反したかの状況によっては何らかの法律に違反とされることもあるかもしれませんが、「自動操作によるアクセス禁止」への違反に該当しそうな法律はあるのか?
個人的に怪しいと思っているのは「不正アクセス禁止法」。認証なしで見られるページであれば問題ないと思いますが、アカウント登録して認証が無いと見られないページの情報の場合の話です。
無料アカウントなのに、有料アカウントでしか見られない情報を、サイトの欠陥を突いて参照すると、不正アクセスで違法ですが、そういうのじゃなくて自分の権限で見られる範囲の情報の話です。
本人のアカウントでのアクセスであれば、他人のアカウント情報を盗んでいるわけじゃないので、よくニュースに出てくる普通の不正アクセスではないわけですが、「最初から利用規約違反の利用をする事を目的としてアカウントを作成した」と裁判で立証されると、「不正に取得したアカウントである」と判断される可能性もあり得るかと思います。スクレイピングではこういう裁判はなかなか無いと思いますし、裁判になっても上記の立証は難しそう。
「XX学校同窓会サイト」で学校関係者限定なのに、学校と無関係な人が嘘の情報でアカウントを作った場合だと「不正にアカウント取得」の立証は簡単ですが、おそらくこういう裁判もなさそう(この人は他にも違法なことしてそうなのでそっちで立件か)。
サイト運営者に検知されるリスクはあるのでしょうか?
最初に書いた私のたまにある例では、ブラウザ操作は手動なので、サーバー側での検知は不可能です。
よく使われているSeleniumライブラリーでのブラウザ操作であれば、サーバー側で検知は可能ですが、検知を妨害する手段もあるかも知れません。
ブラウザを使わないwget
やcurl
や同等のライブラリー等でのアクセスであれば、User-Agentを変更しても、サーバー側がその気になれば検知可能でしょう(css/js/画像等がアクセスされないので)。
こういう観点で調べたことないのでよく知りませんが、RPAツールなどで、ブラウザを制御すれば、直接には検知されないかも知れません。アクセス頻度とか毎日同じ時刻とかの間接情報から推測は出来るでしょうが。
あとは、ブラウザのアドオン自作、ブラウザ自体の自作、オープンソースのブラウザの改造など。
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
あなたの回答
tips
太字
斜体
打ち消し線
見出し
引用テキストの挿入
コードの挿入
リンクの挿入
リストの挿入
番号リストの挿入
表の挿入
水平線の挿入
プレビュー
質問の解決につながる回答をしましょう。 サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。 また、読む側のことを考えた、分かりやすい文章を心がけましょう。
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。