私は実務でSparkを使ったことがありません。Courseraの講座 EPFL Scalaに並列プログラミングがあり、Sparkを利用する課題を解いただけです。(Scalaとnative SQLでSparkを利用)
https://www.coursera.org/specializations/scala
検索
次の検索で情報が出てきます。日本語の情報があるかはわかりません。
Apache Spark with Java
best language for Apache Spark
ベストな言語
Sparkの言語インターフェイスは、Scala,python,Java,R,(native SQL)があります。
SparkはScalaで開発されているので、Scla APIで使うのがベスト。
python APIもよく使われているが、Scalaに比べて性能が劣る。
JavaプログラマーはScalaを習得するのがよい。JavaだとScalaのように簡潔に記述できず、冗長なプログラミングになる。
RだとかえってSparkの機能が不足している。
(Spark native SQLは分散処理向けに拡張したSQLで使い易い。)
およそこんなことが書かれていました。利用言語はScalaかpythonでしょう。
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。