質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
Spark

Spark(Apache Spark)とは、膨大なデータを迅速、柔軟に分散並行処理を行うフレームワークです。分析ツールであるApache Hadoopと比較し、最大で100倍の速度でデータ処理ができるとされています。

API

APIはApplication Programming Interfaceの略です。APIはプログラムにリクエストされるサービスがどのように動作するかを、デベロッパーが定めたものです。

Q&A

0回答

1120閲覧

event-drivenなAPIでSparkの処理を利用する場合の構成

退会済みユーザー

退会済みユーザー

総合スコア0

Spark

Spark(Apache Spark)とは、膨大なデータを迅速、柔軟に分散並行処理を行うフレームワークです。分析ツールであるApache Hadoopと比較し、最大で100倍の速度でデータ処理ができるとされています。

API

APIはApplication Programming Interfaceの略です。APIはプログラムにリクエストされるサービスがどのように動作するかを、デベロッパーが定めたものです。

0グッド

0クリップ

投稿2016/10/22 04:54

現在ユーザがデータとリクエストを送り、
リアルタイムに前処理・機械学習的処理を行い、
その結果を返すAPIの構築を考えております。
(Micro Service的な利用を想定しております。)

要するに、event-drivenなリアルタイム処理APIを
sparkを組み込んで構成したいと考えております。

その場合どのような構成(ソケットやフレームワークなど)で
行うのが良いのでしょうか。

適用する前処理や機械学習のモデルはあらかじめ用意されている(学習済み)
とします。

standaloneモードやclusterモードですと、
jobが投げられるたびにモデルのロードから始まり、
遅くなりそうです。

かといってSpark Streamingだと、
指定した間隔のデータをまとめて処理することになり、
対象データとその結果の1対1対応させるのは難しくなるように
感じるのですが・・・。
(あとリクエストが来なかったときにも、処理がはしって、
無駄にリソースが消費されそうです。)

周辺情報含め、ご教授お願いいたします。

sparkそのものに関する理解が浅く、
そもそも間違っている点があればご指摘ください。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

まだ回答がついていません

会員登録して回答してみよう

アカウントをお持ちの方は

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問