今、Pythonを学習する中で、スクレイピングに興味を持っています。
そこで、BeautifulSoup4を使って、こちらのサイト(https://qiita.com/matsu0228/items/edf7dbba9b0b0246ef8f)などを使って、簡単なスクレイピングをしてみました(特定のclassのタグのtextを取得するなど)。
そのあとスクレイピングについて調べていて、法に触れないように色々注意が必要なこととrobots.txtというものを知りました。
そこで2つお聞きしたいです。
1.
今後、TwitterAPIと連動して、特定のサイトの情報をつぶやくbotを作成したいと考えています。
たとえば、都内の映画館のサイトの上演情報の欄などをスクレイピングして、その結果をもとにTwitterで
「今週都内で見れる映画はこちら
・~ hogeシアター
・~ hogehoge館
・~ hogeシネマ」
のように呟くというようなアプリを開発する際に、まずこのこと自体は違法ではないかということと、
2.
ある劇場で下記のようなrobots.txtがありました。
User-agent: * Disallow: /wp-admin/ Allow: /wp-admin/admin-ajax.php
これはどういう意味ですか?
wp-adminというのはphpの開発環境の管理画面?のようなものでしょうか?(Pythonが初学のためよくわかりません)
この場合、Allow:以下の部分しかクロールしてはいけませんということでしょうか?
その場合、普通にブラウザで一般客が閲覧するような画面は含まれませんよね?
ちなみにAllow: のところをブラウザで直接打ち込んで開くと「0」とだけ書かれたページが表示されます。
これは実質クロール禁止ということですか?
以上2点、お教えいただければ幸いです。
宜しくお願い致します。
回答2件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2019/05/15 02:24
2019/05/15 02:42
2019/05/15 14:34