質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.37%
スクレイピング

スクレイピングとは、公開されているWebサイトからページ内の情報を抽出する技術です。

Beautiful Soup

Beautiful Soupは、Pythonのライブラリの一つ。スクレイピングに特化しています。HTMLデータの構文の解析を行うために、HTMLタグ/CSSのセレクタで抽出する部分を指定することが可能です。

Webサイト

一つのドメイン上に存在するWebページの集合体をWebサイトと呼びます。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

selenium

Selenium(セレニウム)は、ブラウザをプログラムで作動させるフレームワークです。この原理を使うことにより、ブラウザのユーザーテストなどを自動化にすることができます。

Q&A

5回答

2225閲覧

スクレイピングが可能なサイトの見分け方について

sasu46

総合スコア9

スクレイピング

スクレイピングとは、公開されているWebサイトからページ内の情報を抽出する技術です。

Beautiful Soup

Beautiful Soupは、Pythonのライブラリの一つ。スクレイピングに特化しています。HTMLデータの構文の解析を行うために、HTMLタグ/CSSのセレクタで抽出する部分を指定することが可能です。

Webサイト

一つのドメイン上に存在するWebページの集合体をWebサイトと呼びます。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

selenium

Selenium(セレニウム)は、ブラウザをプログラムで作動させるフレームワークです。この原理を使うことにより、ブラウザのユーザーテストなどを自動化にすることができます。

0グッド

2クリップ

投稿2023/04/14 22:39

実現したいこと

・スクレイピング可能なサイトの見分け方について教えて頂きたいです。

前提

利用規約などを見てスクレイピングが可能なサイトか、否か、見分けているのですが、初心者なので本当にスクレイピングしていいサイトなのか不安です。

試したこと

調べて、robots.txtを使い、そのサイトのスクレイピング可能か否か判断する。という記事を見ました。
例えば、アマゾンのサイトURL+robots.txtをやってみると、「許可しない」という文字がいっぱい出てきて禁止サイトなのだと判断しました。

ですが、サイトURL+robots.txtで検索してもページが見つかりません。という表示だけでなにも出てこないサイトがあります。
例えば、国土交通省とかでやってみると、うまく表示ができませんでした。
国土交通省の利用規約を見ると、スクレイピングをしても良いみたいな文面は書いてあり、おそらく可能なサイトだとは思うのですが、利用規約を見る以外で、可能か禁止か確認する方法を教えて頂きたいです。
ここに問題に対して試したことを記載してください。

補足情報

スクレイピング可能なサイト、禁止のサイト、皆さんはどのように確認をしているのでしょうか?
是非、ご教授いただきたいです。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

meg_

2023/04/15 01:08

利用規約を確認するしかないかと思います。不明点があれば問い合わせてはどうでしょうか?
TakaiY

2023/04/15 04:53

プログラミングについての質問ではないので、こういう質問は意見交換にしたほうがいいように思います。
退会済みユーザー

退会済みユーザー

2023/04/23 01:06

質問者さん、無言ですが、回答がいくつか出てますのでそれらに対するフィードバックを返してください。解決したなら解決に一番役に立った回答にベストアンサーをつけてクローズしてください。
guest

回答5

0

スクレイピングを明示的に許可しているサイトは原則ないと思います。
許可している場合はそもそもAPIを提供していますので。

投稿2023/04/15 04:46

pippi19

総合スコア684

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

0

ごめんなさい。不要な情報でした

投稿2023/09/01 06:13

編集2023/09/01 06:15
yambejp

総合スコア116443

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

0

すが、利用規約を見る以外で、可能か禁止か確認する方法を教えて頂きたいです。

さすがに、利用規約を見る以外での確認方法はあり得ないでしょう。あとは、問い合わせるくらい。
それ以外の方法は、あくまで「推測」でしかないので。

調べて、robots.txtを使い、そのサイトのスクレイピング可能か否か判断する。という記事を見ました。

その記事を見てませんが、誤解してませんか? robots.txtを使うというのはそのサイトのrobots.txtを取得してその中味の記述を見ると言うことでは?
robots.txt は、そこで許可と書かれている範囲であれば検索エンジンのクローラープログラムがアクセスしていいと言うことです。
それで取得したデータを検索エンジンの元ネタとして使って良いという意味なので、それで取得したデータを著作権フリー的な意味で全く自由に使って良いわけでは無いです。

まったく個人的な趣味での利用(取得データ他人にアクセス不可)であれば、robots.txtの範囲内であれば、とがめられる理由は思いつきませんが、取得した物が(検索エンジン以外の方法で)他人にアクセス可能なような利用目的であれば、robots.txtの記述は参考にならないでしょうね。

アクセス頻度の問題は全く別の話です。
・100人の人間がF5キーを毎秒5連打するのを1時間続ける
・1つのプログラムが1時間に1回アクセスする
のを比較すると、前者の方が攻撃と判断される可能性が高いです。
これは利用規約で「~~という頻度以上でのアクセスを禁止する」と書かれていなくても同じでしょう。
じゃあ、どれくらいの頻度以下ならOKかというのは判断できないです。

他の方が書かれている図書館の事件は、「並列処理無しで1秒1回程度という、普通これくらいなら大丈夫だろうという頻度」が、サイト側の不具合で障害を引き起こしたので、サイト側不具合のことまで想定するなら全くわからないです。障害はサイト側不具合が原因と言うことで起訴はされませんでしたが、逮捕はいやですよね。警察もこの事件で学んだと思いますが、全国に警察は沢山あるので、学んでない警察が逮捕するかも。

投稿2023/04/15 05:24

編集2023/04/15 05:25
otn

総合スコア85766

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

0

「していいかどうか」を他者が勝手に判断していいものではないので、外部向けのAPIが提供されてなければ基本NGと考えるべきと思います。
どうしても、必要に迫られるのであれば運営者に問い合わせること。

投稿2023/04/15 02:18

m.ts10806

総合スコア80875

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

0

利用規約を見る以外で、可能か禁止か確認する方法を教えて頂きたいです。

利用規約を読んでも分からなければ、その辺りに詳しい法律の専門家 (あなたの組織の法務部門とか弁護士とか) に相談するとか、サイトの管理者に直接問い合わせるぐらいしか方法は無さそうに思います。


【追記】

スクレイピングは、サイトの管理者に許可を得ているとか、規約に従って専用の API にアクセスしているとかでなければ、迷惑行為になるかもしれない・・・ということは、こういう質問をするということは認識されているとは思いますが。

クローラーを作って某図書館サイトにアクセスしたら業務妨害とかで逮捕された事例もありますので、甘く見ない方がいいと思います。

逮捕までいかなくても、被害が深刻な場合は損害賠償の訴訟を受けるかもしれません。

訴訟までいかなくても、アクセス遮断ならWeb サーバーの設定で可能なので、多分に可能性はあると思います。帯域ごと遮断され、あなたのやったことで多数の利用者が巻き添えを喰らうことになるかもしれません。

投稿2023/04/14 23:23

編集2023/04/15 03:19
退会済みユーザー

退会済みユーザー

総合スコア0

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

まだベストアンサーが選ばれていません

会員登録して回答してみよう

アカウントをお持ちの方は

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.37%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問