質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
データベース

データベースとは、データの集合体を指します。また、そのデータの集合体の共用を可能にするシステムの意味を含めます

teratail

teratail(テラテイル)は、プログラミングに特化した日本語Q&Aサイトです。

API

APIはApplication Programming Interfaceの略です。APIはプログラムにリクエストされるサービスがどのように動作するかを、デベロッパーが定めたものです。

Q&A

解決済

1回答

1951閲覧

teratailのスクレイピング結果をDBに保存する際の更新目安

mitsuru793

総合スコア157

データベース

データベースとは、データの集合体を指します。また、そのデータの集合体の共用を可能にするシステムの意味を含めます

teratail

teratail(テラテイル)は、プログラミングに特化した日本語Q&Aサイトです。

API

APIはApplication Programming Interfaceの略です。APIはプログラムにリクエストされるサービスがどのように動作するかを、デベロッパーが定めたものです。

0グッド

1クリップ

投稿2015/09/20 11:04

編集2015/09/20 11:05

teratailで欲しい機能が色々と出てきたので自分で作ろうと思います。そこで質問があります。
ページを更新するたびに、全質問をAPIで取得するのはteratailのサーバーに負荷がかかるのと、表示に時間がかかると思います。そこで、予め定期的にAPIを実行しておくスクリプトを用意しておいて結果を自前のDBに保存し、そのDBからデータを取得して表示させようと考えています。

例として、下記のはてなブックマークランキングサイトでは、2005年からのデータを検索することができます。
歴代はてブ多い順 / 年ごとのランキング 2015年 1位~50位

これだけの量を、ページを表示するたびに全記事取得のAPIを叩いているとは思えません。おそらく定期的にAPIを叩いて自前のDBに保存していると思えます。しかし毎日データを更新しようにも、これだけの記事量となるとAPIを叩くのにも制限がかかるのではないかと思います。

上記サイトの場合、記事ごとにブックマーク数は常に変動すると思うので定期的にデータを更新する必要があると思います。このチェックを行うには、APIを叩いて全記事を取得してチェックして方法がいいのでしょうか?

また、DBに保存する方法以外にもこういうのがあるよ。向いているよ。というのがあればぜひ教えていただきたいです。
ご回答、よろしくお願い致します。

teratailのapi紹介サイト
teratail API v1.0 · Apiary

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

ベストアンサー

... APIを叩いて全記事を取得..

現状だと、https://teratail.com/api/v1/questions?limit=100 とすると
全 163 ページのうちの1ページ目 100 件 (2015-02-20 .. 2014-08-18) の質問を取得できます。

1時間で300回まではリクエストできるようなので、つぎのような更新スケジュールはいかがでしょう。

* 日中は 10分.. 30 分毎に
最新の一覧 20件 1 ページ分を取得して、DB を更新する。
最新の質問 20件を取得して DB を更新する。

  • 夜中 (朝の3時頃) に 100件毎に全ページを取得して、DB を更新する。(160 アクセス)

一覧は上のようなスケジュールで、全件をDBに保持することができそうです。

  • 質問については 全部で2万件あるとすると, 300 件/ 時間をおこなったとしても、70時間 (3日間)かかってしまいます。

最初は3日 .. 1週間かけて、全件を取得して DB に保存するしかありません。
あたらしい質問(直近 100件)は↑のような更新スケジュルで日々更新できますが,
古い質問は更新できません。
週に1度ぐらいの頻度で、全質問の情報の再取得をします。

提案;
teratail 様側で、質問全件データを csv とか json 形式で1ファイルでダウンロードできるようにしていただけると、この質問のようなケースだと初期データの構築が楽になるのですが。

投稿2015/09/20 12:43

katoy

総合スコア22324

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

mitsuru793

2015/09/20 14:21

ご回答、ありがとうございます。 > 最新の一覧 20件 1 ページ分を取得して、DB を更新する。 これだと次の取得までに21件以上新規質問があれば取りこぼしてしまうと思ったのですが、全件ページ取得も別でスケージュルで組むのですね。 もし、2万件あるとすると全ページ取得は毎日行うことは難しいので定期的に1週間近くかければ過去の情報の更新もできるとわかりました。 参考に挙げた「はてなブックマークランキングサイト」のブックマーク数は、直近のブックマーク数ではなく古いものほどリアルタイム性が失われている可能性がありそうです。 質問に対するコメント状況の監視も試みようと思っているので、なるべく負担のないスケジュールを考えたいと思います。 結局は全件のデータ取得を定期的に続ける必要がありますね。確かに初期データのみは、運営側から提供してもらえば構築が楽になりますね。 大変参考になりました!ありがとうございます。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問