質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
スクレイピング

スクレイピングとは、公開されているWebサイトからページ内の情報を抽出する技術です。

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

RSS

RSS(Really Simple Syndication)はブログのエントリやニュースの見出し、標準のフォーマットの音声やビデオなどを発行するために使われるウェブフィードのフォーマットの集合体です。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

AWS(Amazon Web Services)

Amazon Web Services (AWS)は、仮想空間を機軸とした、クラスター状のコンピュータ・ネットワーク・データベース・ストーレッジ・サポートツールをAWSというインフラから提供する商用サービスです。

Q&A

解決済

2回答

4759閲覧

スクレイピング頻度の安全な目安が分からない

wowow

総合スコア12

スクレイピング

スクレイピングとは、公開されているWebサイトからページ内の情報を抽出する技術です。

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

RSS

RSS(Really Simple Syndication)はブログのエントリやニュースの見出し、標準のフォーマットの音声やビデオなどを発行するために使われるウェブフィードのフォーマットの集合体です。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

AWS(Amazon Web Services)

Amazon Web Services (AWS)は、仮想空間を機軸とした、クラスター状のコンピュータ・ネットワーク・データベース・ストーレッジ・サポートツールをAWSというインフラから提供する商用サービスです。

0グッド

3クリップ

投稿2018/06/09 05:34

編集2018/06/09 05:48

私は現在、様々なウェブサイトのRSSをスクレイピングして一覧表示する、いわゆる「アンテナサイト」を、勉強もかねて自分のために作っています。

そこで、1分に一度RSSをスクレイピングして、新着記事があればデータベースに保存し、新着記事が無ければ何もしないというプログラムを書き、その処理を1分に一回の頻度で行うようにしようとしたのですが、そのプログラムは各々のサイトのサーバーに一日60×24回もリクエストを送ることになり、365日運用すれば莫大なリクエストを送り付けことになってしまいます。

なのでせめてと3分に一回に頻度を減らし、一日20×24回に減らそうと考えているのですが、この数字は一般的に考えて許容範囲内でしょうか?

<参考情報>
スクレイピング対象サイトは、大手ニュースサイトまたは大手まとめサイト
スクレイピング対象RSSは、RSS配信サイトであればそれを使い、非配信サイトであればRSSジェネレータを使ってRSSを自分で用意して使う

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答2

0

ベストアンサー

毎分1回で危険なことになるサーバは、今どきないと思いますが・・・
60*24で1440ですが、大手RSS、大手まとめサイトは一日にその100倍くらいは普通にアクセスがあります(もしかしたら1000倍かもしれないが)。気にする必要はないということです。
ただし、そもそもそれ以前にサイトの規約等でスクレイピングを禁止しているということが考えられますから、そっちを気にしてください。法的にまずいことになるリスクを背負い込んでしまうでしょう。

投稿2018/06/09 06:11

hayataka2049

総合スコア30933

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

lazhuward

2018/06/11 01:48

補足しますと、yahooニュースだと1日5億PVぐらいですね。 1分に1回程度でも、何ら問題ありません。 ただ、ニュース更新は1日数回なので毎分取りに行く必要ないとおもいますけど。
guest

0

3分に1回レベルで問題が起こるとは思えませんが。

新着記事

もしアクセス間隔を間引くとしたら一律で間引くのではなく。
編集に人間の手を介するのとプレスリリース効果を最大限にしたい関係上、
プレスリリースの配信時間帯は大体決まっています。
例)不祥事の発表は株式市場が終わった15時以降にとか。
そういう点も考慮してスクレイピング頻度を間引いたほうがよいのでは。

投稿2018/06/09 07:26

編集2018/06/09 07:30
umyu

総合スコア5846

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問