event-drivenなAPIでSparkの処理を利用する場合の構成

現在ユーザがデータとリクエストを送り、
リアルタイムに前処理・機械学習的処理を行い、
その結果を返すAPIの構築を考えております。
(Micro Service的な利用を想定しております。）

要するに、event-drivenなリアルタイム処理APIを
sparkを組み込んで構成したいと考えております。

その場合どのような構成（ソケットやフレームワークなど）で
行うのが良いのでしょうか。

適用する前処理や機械学習のモデルはあらかじめ用意されている（学習済み）
とします。

standaloneモードやclusterモードですと、
jobが投げられるたびにモデルのロードから始まり、
遅くなりそうです。

かといってSpark Streamingだと、
指定した間隔のデータをまとめて処理することになり、
対象データとその結果の１対１対応させるのは難しくなるように
感じるのですが・・・。
（あとリクエストが来なかったときにも、処理がはしって、
無駄にリソースが消費されそうです。）

周辺情報含め、ご教授お願いいたします。

sparkそのものに関する理解が浅く、
そもそも間違っている点があればご指摘ください。

行動規範の内容に同意します

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

まだ回答がついていません

アカウントをお持ちの方は

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

関連した質問