現在ユーザがデータとリクエストを送り、
リアルタイムに前処理・機械学習的処理を行い、
その結果を返すAPIの構築を考えております。
(Micro Service的な利用を想定しております。)
要するに、event-drivenなリアルタイム処理APIを
sparkを組み込んで構成したいと考えております。
その場合どのような構成(ソケットやフレームワークなど)で
行うのが良いのでしょうか。
適用する前処理や機械学習のモデルはあらかじめ用意されている(学習済み)
とします。
standaloneモードやclusterモードですと、
jobが投げられるたびにモデルのロードから始まり、
遅くなりそうです。
かといってSpark Streamingだと、
指定した間隔のデータをまとめて処理することになり、
対象データとその結果の1対1対応させるのは難しくなるように
感じるのですが・・・。
(あとリクエストが来なかったときにも、処理がはしって、
無駄にリソースが消費されそうです。)
周辺情報含め、ご教授お願いいたします。
sparkそのものに関する理解が浅く、
そもそも間違っている点があればご指摘ください。
あなたの回答
tips
プレビュー