私はプログラミングの経験はありませんが、SNSでスクレイピングに関する話題を目にすることがあり、その違法性について気になりました。そこで、以下の点について教えていただきたいです。
- スクレイピングとは、「ブラウザで見える情報を自動的に取得する」という理解で合っていますか?
- たとえば、ニュースサイトやECサイトの情報をスクレイピングで収集する行為は、著作権や利用規約に違反する可能性があると感じています。このような行為を安易に行っても問題はないのでしょうか?SNS上でスクレイピングを行ったことを投稿している人を見かけることがありますが、あれは本当に問題ないのでしょうか。もし見つかった場合、罰金や逮捕などの法的なリスクはあるのでしょうか?
- 少し不適切な前提かもしれませんが、仮にスクレイピングを行った場合、サイト運営者に検知されるリスクはあるのでしょうか?技術的にバレなければ実行可能であるようにも思えますが、そうした行為が禁止されていることを理解していても、検知されないのであれば実際に行ってしまう人もいるのではないかと感じています。
一般的なエンジニアとしての視点からご助言いただけますと幸いです。よろしくお願いいたします。
気になる質問をクリップする
クリップした質問は、後からいつでもMYページで確認できます。
またクリップした質問に回答があった際、通知やメールを受け取ることができます。
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
回答11件
#1
総合スコア117914
投稿2025/06/02 02:21
スクレイピング自体には違法性はありません。
つまりWEBサイトは「公開された情報」ですから、それをローカルに保持することはある意味WEBという仕組みの基本だからです。
ネットインフラが脆弱だったころは夜中の通信料が安価なサービスを利用してクローラーというダウンロードツールを使いキャッシュを作成することが流行っていたこともあります。
違法性を判断するポイントは2点
利用許諾上の課題
サイトの利用許諾上の記載に「ダウンロード禁止」とあればそのとおりです。ただし契約は両者の合意が必要ですのでオープンなサイトの場合利用者が規約に明示的に同意していない場合は禁止事項を厳守させることは難しく、そのサイトへのアクセス制限などなんらかの仕組みがあり、たとえばログインするなど読み込むための手順があることが必要です。ただし画像や音声などベルヌ条約で保護されているものはダウンロードはともかく二次利用は自動的に制限されます。
負荷の高い処理
岡崎市立中央図書館事件を参照ください。
仮にオープンなサイトであっても一定数以上のアクセスは悪意をもった不法行為として威力業務妨害とみなされる場合があります。これもその時点の社会情勢やインフラの普及度合いなどを鑑みた司法判断によるので必ずしも違法性があるわけではなく、リスクがあることだけ把握しておいてください。
#2
総合スコア14536
投稿2025/06/02 03:03
~という理解で合っていますか?
あっています。
著作権や利用規約に違反する可能性があると感じています。
可能性はあります。 著作権については個人で楽しむ範囲であれば基本的に問題は無いでしょう。
このような行為を安易に行っても問題はないのでしょうか?
罰金や逮捕などの法的なリスクはあるのでしょうか?
スクレイピングそのもので罪になることは、対象サイトに負荷をかけすぎてサービスに影響を及ぼしでもしない限りならないでしょう。
スクレイピングを行った場合、サイト運営者に検知されるリスクはあるのでしょうか?
同一アドレスから高頻度や定時的なアクセスするなど、人間ではできないような方法であると判断される場合はばれるでしょう。 何の工夫も無しに実行すれば、ブラウザエージェント情報などでもわかるかもしれません。
検知されないのであれば実際に行ってしまう人もいるのではないかと感じています。
いるでしょうね。
スクレイピングすることそのものに法的な問題はありません。論理的にはブラウザで情報を表示するのと変ることはないからです。ただし、自動化によりサービスに負荷をかけるなどの害が及ぶことがあるので、利用規約で禁止されていることもあり、その場合はやるべきではないでしょう。
また、取得したコンテンツについては、手動だろうとスクレイピングだろうと、情報の内容に合った使いかたをすべきです。
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
#3
総合スコア10980
投稿2025/06/02 11:13
スクレイピングとは何か、違法性について
情報をスクレイピングで収集する行為は、著作権や利用規約に違反する可能性があると感じています。
「著作権や利用規約に違反する可能性」はありますがケースバイケースだと思います。利用規約で禁止されている場合もされていない場合もあります。個別の利用規約に従うのが安心だと思います。ですが「違法性」と問われると利用規約で禁止されているから全て違法とも言えないと思います。
このような行為を安易に行っても問題はないのでしょうか?
どのような行為であっても「安易に行って」は駄目だと思います。利用規約等でスクレイピングに限らず様々な禁止行為が制定されていることが多いです。
個人ではなく企業による大規模なものではありますが、米国ではスクレイピングに関する裁判もありました。
米控訴裁「公開情報のスクレイピングは合法」、LinkedInの情報を巡る争い
EBay v. Bidder's Edge
上記は一例ですがスクレイピングする側が負けたり勝ったり両方あるようです。
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
#4
総合スコア86349
投稿2025/06/02 13:46
スクレイピングとは、「ブラウザで見える情報を自動的に取得する」という理解で合っていますか?
概ね合っていると思いますが、「スクレイピング」とは、Amazonなどで「スクレイパー」を検索すると分かりますが、「貼り付いている物を引っぺがす」的な意味です。つまり、HTMLに埋め込まれているデータを取り出すことが該当します。
完全手動、つまり、目でブラウザ画面をみて、画面からコピペ、もしくは目で見た物を手打ちしたのでは、おそらくスクレイピングとは言わないと思いますが、一部手動+一部自動をスクレイピングと呼ぶかどうかは人次第な気がします。
例えば、私は「この作業は滅多にしない」と思うときは、ブラウザでサイトを表示して、ブラウザの開発者ツールを使って、HTMLをコピーしてファイルに保存して、「ローカルのHTMLファイルを読み込んでそこから情報を抜き出すプログラム」を作ることもありますが、これはスクレイピングなのかどうか。
(ブラウザを希望通りに動かして安定して動作するプログラムを書くのは結構面倒なので、これくらい手動の方が楽な事も多い)
私は「HTMLに埋め込まれているデータを取り出すこと」だと思っているので、これもスクレイピングだと思いますが、HTML取得部分が手動なのでそう思わない人もいるでしょう。
スクレイピング自体に違法性はありません。
考えるポイントとしては、
1.アクセス頻度の問題
アクセス頻度が高くて、そのために、他の利用者の利用が困難になったり、システムがダウンしたりすると威力業務妨害の罪になる可能性があります。ただ、これはスクレイピングかどうかは関係なくて、ブラウザでウェブサイトを表示した状態で、F5キー(リロード)を連打することでも同じ罪になる可能性があります。10人でPC10台で同時に1秒間に5回F5キーを押すと秒間50件ですね。小規模サイトだと影響出るかも知れません。
ということで、そこからデータを抜き出しても抜き出さなくても同じ罪なので、スクレイピング固有の問題ではないです。
スクレイピングする人が、意図的に、高頻度でアクセする事はまず無いかと思います。
(金融商品などのリアルタイム時価が欲しい人はもしかしたらするのかも知れませんが、おそらく他の方法があるのでは?このあたりよく知らないですが)
ただし、「1回のアクセスから次のアクセスまで1秒待つ」つもりが、プログラムミスで「1回のアクセスから次のアクセスまで1ミリ秒待つ」になっていると、高頻度アクセスになりますね。sleep(1.0)
で1秒待つと思ったら1ミリ秒だった的な。
なお、「1秒に1回」という「誰が考えても高頻度では無いだろう」というアクセス頻度でも、相手システムにバグや不具合があるとサービス低下やシステムダウンになるかも知れず、実際に「1秒に1回」で逮捕されたケースもあります。yambejpさんの挙げている岡崎市立中央図書館事件。結果は「起訴猶予」で不起訴ですが、システムダウンの原因はシステム不具合なので、本来は「起訴猶予」でなく「嫌疑なし」になるべきです。まあ、種々の大人の事情でしょう。
「1日に1回」であれば、いくらシステム不具合があってもサーバー動作に影響は出ないでしょうね。
2.著作権の問題
これは得た情報を他人に渡すのであれば発生する問題です。
ただし、完全手動で、ブラウザ画面からコピペして公開しても、普通にダウンロードしたファイルを公開しても発生する問題なので、これもスクレイピング固有の問題ではないです。他人の著作物を許可を得ることなく公開や配布すると違法です(著作権法上に例外あり)。取得手段が何であるかは違法・合法には関係ありません。違法な手段で取得していればそれ自体が違法ですが。
なお、他人のサイト上の情報がすべてその他人の著作物と言うことでもないです。「著作物とは何か」をご存じなければ、著作権法を参照してください。
また、得た情報を自分一人でしか使わないのであれば、著作権の問題は関係ありません。家庭内利用などについては著作権法を参照。
ただし、自分一人で見るつもりだったのに、操作ミスや、不正ソフトなどにより、PC上のファイルが外部に流出した場合に、「著作権法に違反した公開・配布」と見做されるのかどうかは知りません。まあこれも、スクレイピングじゃなくて普通にダウンロードした情報についても同じなので、スクレイピング固有の問題ではないです。
3.利用規約の問題
利用規約は法律では無いので、「自動操作によるアクセス禁止」という規約があり、それに違反してもそれで直ちに「違法」ではないです。
もちろん、「違法じゃないので、利用規約違反はしてもいいだろ」という考えは問題があるのは当然ですが。
なお、手動でのブラウザ操作でのデータ抽出と、そのデータの著作権法に違反しない範囲での活用を、禁じる利用規約はおそらく無いだろうし、禁止するのは無理があると思います。何のためのウェブサイトなんだと。
合法な範囲の利用としても、利用規約違反がばれると、アカウント削除とかはあり得るだろうし、もしサイト側に何らかの被害があれば、民事損害賠償訴訟とかの可能性はあります。スクレイピングに限らない規約違反の一般論としては、どんな規約にどのように違反したかの状況によっては何らかの法律に違反とされることもあるかもしれませんが、「自動操作によるアクセス禁止」への違反に該当しそうな法律はあるのか?
個人的に怪しいと思っているのは「不正アクセス禁止法」。認証なしで見られるページであれば問題ないと思いますが、アカウント登録して認証が無いと見られないページの情報の場合の話です。
無料アカウントなのに、有料アカウントでしか見られない情報を、サイトの欠陥を突いて参照すると、不正アクセスで違法ですが、そういうのじゃなくて自分の権限で見られる範囲の情報の話です。
本人のアカウントでのアクセスであれば、他人のアカウント情報を盗んでいるわけじゃないので、よくニュースに出てくる普通の不正アクセスではないわけですが、「最初から利用規約違反の利用をする事を目的としてアカウントを作成した」と裁判で立証されると、「不正に取得したアカウントである」と判断される可能性もあり得るかと思います。スクレイピングではこういう裁判はなかなか無いと思いますし、裁判になっても上記の立証は難しそう。
「XX学校同窓会サイト」で学校関係者限定なのに、学校と無関係な人が嘘の情報でアカウントを作った場合だと「不正にアカウント取得」の立証は簡単ですが、おそらくこういう裁判もなさそう(この人は他にも違法なことしてそうなのでそっちで立件か)。
サイト運営者に検知されるリスクはあるのでしょうか?
最初に書いた私のたまにある例では、ブラウザ操作は手動なので、サーバー側での検知は不可能です。
よく使われているSeleniumライブラリーでのブラウザ操作であれば、サーバー側で検知は可能ですが、検知を妨害する手段もあるかも知れません。
ブラウザを使わないwget
やcurl
や同等のライブラリー等でのアクセスであれば、User-Agentを変更しても、サーバー側がその気になれば検知可能でしょう(css/js/画像等がアクセスされないので)。
こういう観点で調べたことないのでよく知りませんが、RPAツールなどで、ブラウザを制御すれば、直接には検知されないかも知れません。アクセス頻度とか毎日同じ時刻とかの間接情報から推測は出来るでしょうが。
あとは、ブラウザのアドオン自作、ブラウザ自体の自作、オープンソースのブラウザの改造など。
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
#5
総合スコア860
投稿2025/06/08 05:52
どんな方法でも意図しない利用をしているだとか、あるいはそのほかの理由で、アクセス制限、ブロックのリスクはあります。
こういう質問ではスクレイピングは違法性がないとよく言われますが、管理者の意図しない利用かどうかというのが争点になりがちです。
SQLインジェクションも入力フォームの脆弱性をついて管理者の意図しないクエリーを実行するというサイバー攻撃で、これは情報漏洩などの明らかな損害があります。
サイバー攻撃は公開されている情報をもとに、あるいはその脆弱性をついて行われるものです。
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
#6
総合スコア86349
投稿2025/06/08 12:01
問題は「スクレイピング」という言葉をどういう意味で使っているのかの一致なく議論する事かと思います。
私は#4に書いたとおり「HTMLに埋め込まれているデータを取り出すこと」の意味で使っています。#4に出て来る「スクレイピング」という語はすべてその意味ですので、質問者さんの認識とは違うかも。
前後の流れまで含めて書くと、
1.サイトへのアクセス
2.1で得たHTMLに埋め込まれているデータを取り出す
3.2で取り出したデータの利用
1は、不正アクセス禁止法や威力業務妨害その他の法律に注意しないと、違法行為をしてしまう可能性があります。また、利用規約でプログラムによるアクセスを禁止している場合もあります。
3は、他人が参照できる状態にすると著作権法違反の可能性があります。利用規約で著作権法で許されているよりさらに狭い範囲でしか許可していないも知れません。また、内容や利用方法によってはその他の犯罪の可能性もありますね。
2は、違法になりそうな法律は思いつかないです。法律専門家でない者が思いつかないと言うだけで、違反しそうな法律があるのかも知れませんが。もしかすると利用規約違反の可能性はあります。
「利用規約違反は法律違反でないのでしてもいい」は問題ありというのも書いた通り。
このような行為を安易に行っても問題はないのでしょうか?
この部分が質問のポイントな気がしてきました。
安易にやっては駄目です。作業全体を考えると、注意しないと違法になる可能性があるというのは書いた通りです。
この質問は、「自分もスクレイピングをしてみたい」ということから出てきたものですかね?
スクレイピング技術を体験したいだけなら、合法かつ利用規約に違反しない範囲でスクレイピングをすることはもちろん可能です。
そうじゃなくて、具体的にやってみたいことがあるのなら、あなたがスクレイピングという技術を使ってやりたいことが合法かどうかは内容と手段次第でしょうね。やりたいことが、どんな手段を使っても違法になってしまうというのはあるかと思いますし、手段次第で合法だったり違法だったりもあるかと思います。
自分でスクレイピングしてみたいわけではなく、気になったので聞いてみたと言うことであれば、安易にやっては駄目という前提の元で、いろんなケースがあるのでケースバイケースということでしょう。
合法な範囲でやろうとよく考えて注意深く実施している人もいるだろうし、合法違法を気にせずにやっている人もいるでしょうね。そういう意味では自動車の運転とかも同じですね。
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
#7
#1
回答ありがとうございます!スクレイピングの違法性について、利用規約とアクセス負荷の2点がポイントとなることを教えていただき、理解できました。岡崎市立中央図書館事件も参考にさせていただきます。
ただ、一点だけ、もう少し詳しく教えていただきたいことがあります。
ただし画像や音声などベルヌ条約で保護されているものはダウンロードはともかく二次利用は自動的に制限されます。
とあるのですが、具体的にどのような二次利用が制限されるのでしょうか?例えば、スクレイピングで集めた画像を個人のパソコンに保存して閲覧するだけの場合や、加工せずに引用してブログに掲載する場合はどうでしょうか?著作権法に抵触する可能性があるのは分かりますが、ベルヌ条約との関係性が少し分かりにくいため、もう少し具体例を挙げて説明していただけると助かります。
よろしくお願いいたします。
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
#9
総合スコア86349
投稿2025/06/09 16:41
編集2025/06/09 16:42具体的なケースでの合法性について教えていただけると嬉しいです。
あなたの質問スタンスが分かりません。
一般知識を得たいだけなら検索して見つかる情報で十分かと思います。
#6に書いた、
そうじゃなくて、具体的にやってみたいことがあるのなら、あなたがスクレイピングという技術を使ってやりたいことが合法かどうかは内容と手段次第でしょうね。やりたいことが、どんな手段を使っても違法になってしまうというのはあるかと思いますし、手段次第で合法だったり違法だったりもあるかと思います。
というスタンスでの質問で、そのやりたいことが他人に情報を提供することを含んでいるなら、法律の専門家にあなたのやりたいことを具体的に説明して相談するのが良いと思います。「ベルヌ条約」がでてくるというのは国をまたいだ問題だと思うので、なおさらです。また、今までに出てきた以外の法律に引っかかる可能性もあります。
もちろん専門家に相談せずにここに具体的に書いて意見をもらうことも内容次第ではありでしょうが、非専門家の意見を聞いて意味あるのかな?
集めた画像を個人のパソコンに保存して閲覧するだけの場合
であれば著作権の問題は無いはずですが(下記注)、誤操作や不正ソフトによって流出した場合に責任を問われるのかはよくわかりませんというのは書いた通りです。例えば「SNS投稿時に添付ファイルを間違えて他人の著作物を無許可で投稿してしまったが、間違いに数日間気づかなかった」というケースで、誤操作なのか、誤操作のふりをしている意図的な公開なのか、を法的に判断するのはあなたでなく裁判官です。
注:もちろん、集める時点で違法なことをしていなければですが。他人の著作物を許可を得ずにダウンロード可能にしている違法サイトから、その違法性を知りながらダウンロードするのは違法など。
不正アクセスについては、利用規約の範囲内であれば、「手動でのアクセスなら合法だが、全く同じ事をプログラムでの自動アクセスにしたら違法」ということは考えにくいです。高頻度アクセスによる業務妨害についても「手動なら秒間N件でも合法だが、プログラムアクセスの場合は秒間N件で違法」というのは考えにくいです。
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
#10
総合スコア117914
投稿2025/06/10 01:15
編集2025/06/10 01:21例えば、スクレイピングで集めた画像を個人のパソコンに保存して閲覧するだけの場合や、加工せずに引用してブログに掲載する場合はどうでしょうか?
ベルヌ条約においては、二次使用は著作者の許可が必要。また著作者の人格権(同一性保持権など)により、たとえ使用許諾を得たとしても「原作の趣旨を歪める改変」は問題。
なおベルヌ条約では著作物は自動的に保護され登録不要(万国著作権条約(UCC)がコピーライトの明記されたもののみが対象)。また加盟国内では自国民と同等の保護を受けられる(内国民待遇)特徴があります。
質問の「個人で保存して閲覧」の場合、著作権としては問題はほぼありませんが、たとえばログインしないとコンテンツにアクセスできないようなスクレイピング元の場合、利用にあたりダウンロードを禁止しているのにスクレイピングした場合規約違反になるため、著作権等とは別次元で契約違反による不正アクセス禁止法などに触れるかもしれません。
なお引用については日本では著作権法第32条第1項に以下のような規定があります。
公表された著作物は、引用して利用することができる。 この場合において、その引用は、公正な慣行に合致するものであり、 かつ、報道、批評、研究その他の引用の目的上正当な範囲内で行なわれるものでなければならない。
主な引用ルールはこちら
- 公表された著作物であること
- 引用の目的が正当であること
- 「主従関係」が明確であること
- 必要最小限の範囲内であること
- 改変を加えないこと
- 出典を明記すること
画像の場合、引用というのは勝手な二次利用でしかないので、フリー素材を明示されていれば別ですが原則NGです。場合によっては莫大な二次使用料を請求される可能性もありますのでご留意ください。
著作権法に抵触する可能性があるのは分かりますが、ベルヌ条約との関係性
著作権法はベルヌ条約をもとに各国がより精度を高めた法律です。原則加盟国はベルヌ条約を最低基準としてより厳しい法体系で著作権を管理しています。
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
#11
総合スコア21461
投稿2025/06/10 03:28
少し不適切な前提かもしれませんが、仮にスクレイピングを行った場合、サイト運営者に検知されるリスクはあるのでしょうか?
技術的にバレなければ実行可能であるようにも思えますが、そうした行為が禁止されていることを理解していても、検知されないのであれば実際に行ってしまう人もいるのではないかと感じています。
ここの部分はまだ言及が無かったので軽く解説します。
我々はインターネットを利用するためにプロバイダと契約しますが、
その時にIPアドレスという一時的な「借家とその住所みたいなもの」が払い出されます。
このIPアドレスを先方のWebサイトに送らないと、
先方のWebサイトはインターネット上の誰に結果を返せば良いかわかりません
なので、IPアドレスを送信することはWebサイトの利用には必要不可欠で、確実にバレてしまいます。
次にどうやってバレてしまうかの流れを解説します。
例えばAmazonのWebサーバー等を借りていると、
CPU使用率やネットワークの使用率が一覧で表示されるので
著しい負荷の掛かっているマシンがわかるわけですね。
そこでWebサイトの管理者は「ただ事じゃないぞ?」と原因を特定し始めるわけです。
その時にとりあえず確認するのがWebサイトの「アクセスログ」
世界中のWebサーバには、アクセスログを残す機能があります。
訪問者がWebサイトを訪れる度に、プログラムが自動的に「何時何分何秒に、このIPアドレスの訪問者が/example.htmlを閲覧したよ」という情報を書き足していきます。
この書き足されていくファイルがアクセスログ
それをざっと読んでいけば
SNSでバズったせいで訪問者自体が増えてるだけだったとか、
とある1個人がやたらアクセスしまくってるな……という事情が透けて見える訳ですね。
そして、特定個人のアクセスが著しく多いならば、スクレイピングが原因だろうと分かります。
「このIPアドレスからのアクセスは遮断しよう」とか、
「おいプロバイダ!このIPアドレスの人間がこっちに攻撃してるんだが?裁判で訴えるから個人情報遅れ」とかの対処が可能となります。
インターネットプロバイダの事業を行うものは
プロバイダ責任制限法に従わなければなりません。
一度訴えを裁判所に送る必要がありますが、
裁判所が「これはひどい!プロバイダに開示請求を行ってもヨシ!」と認めたら
「何時何分何秒にうちのWebサイトで悪さした、このIPアドレスの個人情報を教えて下さい」とプロバイダに対して発信者情報開示請求を行う事が出来ます。
プロバイダはインターネットの利用者にIPアドレスを貸し与える時に、
何時何分何秒にそのIPアドレスを貸し与えたかを記録しているわけです。
爆弾を仕掛けた等のテロや犯罪の予告、誹謗中傷……普段はそういったものへの対抗策として機能しますが、
スクレイピング……というよりは、非常識なリクエスト数を発射したWebサイト運営の妨害行為としてなら使われる可能性はありますね。
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
あなたの回答
tips
太字
斜体
打ち消し線
見出し
引用テキストの挿入
コードの挿入
リンクの挿入
リストの挿入
番号リストの挿入
表の挿入
水平線の挿入
プレビュー
質問の解決につながる回答をしましょう。 サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。 また、読む側のことを考えた、分かりやすい文章を心がけましょう。
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。