あるサイトから提供されている情報取得APIを利用して、3~5分おきなどの周期的に、
取得内容をDBに登録する処理をしたいと思っています。
この取得データについては、現段階では数万件ほどを想定していますが、今後増えていく場合を想定して作りたいと思っています。
データ取得&格納バッチを一つだけ実行して全件を処理しようとすると、
5分以内に収まらない事を懸念しているため、
複数バッチを起動しようかと考えていますが、
このような場合にDB処理や、サーバーのスペックとして注意する点などはありますでしょうか?
また、AWSのサービスなどをつかった、別の解決策などもありましたらご教授いただけると幸いです。
よろしくお願い致します
IoT, BEMS関連ではとてもありそうな悩みですね。ということは「外部データ」というのは最新データだけ取れていればいいのではなく時系列データを取れている必要があるという解釈でいいでしょうか。
また、その外部データというのはタイムスタンプを持ったデータ(取るのが少し遅れたとしても目的の時刻のデータがわかるようになっている)なのか、タイムスタンプのないデータ(取るのが遅れたらその分遅れたデータが取れてしまう)なのか、などはいかがでしょうか。
ご回答いただきありがとうございます。
>「外部データ」というのは最新データだけ取れていればいいのではなく時系列データを取れている必要があるという解釈でいいでしょうか。
はい、そのような解釈であっております。
また、タイムスタンプを持ったデータになります。