質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.50%
スクレイピング

スクレイピングとは、公開されているWebサイトからページ内の情報を抽出する技術です。

Beautiful Soup

Beautiful Soupは、Pythonのライブラリの一つ。スクレイピングに特化しています。HTMLデータの構文の解析を行うために、HTMLタグ/CSSのセレクタで抽出する部分を指定することが可能です。

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

Q&A

解決済

2回答

2310閲覧

robots.txt のルールについて

hajifu

総合スコア88

スクレイピング

スクレイピングとは、公開されているWebサイトからページ内の情報を抽出する技術です。

Beautiful Soup

Beautiful Soupは、Pythonのライブラリの一つ。スクレイピングに特化しています。HTMLデータの構文の解析を行うために、HTMLタグ/CSSのセレクタで抽出する部分を指定することが可能です。

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

0グッド

0クリップ

投稿2019/05/14 16:30

今、Pythonを学習する中で、スクレイピングに興味を持っています。
そこで、BeautifulSoup4を使って、こちらのサイト(https://qiita.com/matsu0228/items/edf7dbba9b0b0246ef8f)などを使って、簡単なスクレイピングをしてみました(特定のclassのタグのtextを取得するなど)。

そのあとスクレイピングについて調べていて、法に触れないように色々注意が必要なこととrobots.txtというものを知りました。

そこで2つお聞きしたいです。
1.
今後、TwitterAPIと連動して、特定のサイトの情報をつぶやくbotを作成したいと考えています。
たとえば、都内の映画館のサイトの上演情報の欄などをスクレイピングして、その結果をもとにTwitterで
「今週都内で見れる映画はこちら
・~ hogeシアター
・~ hogehoge館
・~ hogeシネマ」
のように呟くというようなアプリを開発する際に、まずこのこと自体は違法ではないかということと、

2.
ある劇場で下記のようなrobots.txtがありました。

User-agent: * Disallow: /wp-admin/ Allow: /wp-admin/admin-ajax.php

これはどういう意味ですか?
wp-adminというのはphpの開発環境の管理画面?のようなものでしょうか?(Pythonが初学のためよくわかりません)
この場合、Allow:以下の部分しかクロールしてはいけませんということでしょうか?
その場合、普通にブラウザで一般客が閲覧するような画面は含まれませんよね?
ちなみにAllow: のところをブラウザで直接打ち込んで開くと「0」とだけ書かれたページが表示されます。
これは実質クロール禁止ということですか?

以上2点、お教えいただければ幸いです。
宜しくお願い致します。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答2

0

ページの意味を考える必要はありません。Disallowが禁止でAllowが許可というだけです。

スクレイピングで得た情報の利用方法の制限について、利用規約に書いてある可能性がありますので、熟読して、不明点はサイトに問い合わせましょう。
つぶやくと言う事は、得た情報を第三者に提供すると言う事なので、制限されているかも知れません。

投稿2019/05/15 00:25

otn

総合スコア84423

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

hajifu

2019/05/15 02:24

ご回答ありがとうございます。 たしかに、サイトの規約など、初めて読みましたがテキストにも著作権がかかっているので、設計が整理されたら問い合わせてみようと思います。 kei344さんにもお尋ねしたのですが、命令を上から解釈するならば、ルートの/wp-admin/以外のディレクトリ、つまり普段我々がブラウザで閲覧している部分(?)へのアクセスは許可されているということでしょうか?
otn

2019/05/15 02:42

Disallowで明示されていない限り許可です。
otn

2019/05/15 14:34

> 命令を上から解釈するならば、 上から順番では無いです。マッチする中で一番長いものが適用されます。
guest

0

ベストアンサー

このこと自体は違法ではないか

映画館によってはスクレイピング等を利用規約で禁止しているところもあるのでは。また、合法かどうかは法律の専門家に相談されたほうがよいと思いますよ。


wp-admin

wp-adminフォルダはWordPressというPHP製ツールの管理画面で使用するフォルダです。

Allow: /wp-admin/admin-ajax.php

WordPressは(ざっくりというと)フロントエンドからAjaxでバックエンドの処理を行うような仕組みがあり、それに使うのが admin-ajax.php で、それを許可しているのでしょう。

ブラウザで直接打ち込んで開くと「0」とだけ書かれたページが表示されます

単にadmin-ajax.phpにアクセスするだけではデータは手に入りません。必要な情報をWordPress側に渡すことで処理が行われます。(処理自体はサイト製作者が設計するため、「これを渡せばどこでもデータが出る」という物ではありません)

投稿2019/05/14 16:53

kei344

総合スコア69366

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

hajifu

2019/05/15 02:19

ご回答ありがとうございます。 たしかにそうですね。 法律のことに関しては専門の人か当該サイトに問い合わせようと思います。 wp-adminについても、ありがとうございます。 初心者質問で申し訳ありませんが、つまりこのサイトではwp-adminに関してはadmin-ajax.phpへのアクセスのみ許可していて、それ以外の、ブラウザの検索窓でルート以下がwp-admin以外になっているところにはアクセスしたりクロールしてもいいということなのでしょうか?(少なくとも収集レベルなら)
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.50%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問