質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
Hadoop

Apache Hadoopは大規模なデータの分散処理をサポートするJavaソフトウェアフレームワークです。Hadoopを利用すると、数千ノードおよびペタバイト級のアプリケーションデータを処理することができます。

Spark

Spark(Apache Spark)とは、膨大なデータを迅速、柔軟に分散並行処理を行うフレームワークです。分析ツールであるApache Hadoopと比較し、最大で100倍の速度でデータ処理ができるとされています。

Q&A

解決済

1回答

1950閲覧

SparkのRDDの処理について

Ody

総合スコア17

Hadoop

Apache Hadoopは大規模なデータの分散処理をサポートするJavaソフトウェアフレームワークです。Hadoopを利用すると、数千ノードおよびペタバイト級のアプリケーションデータを処理することができます。

Spark

Spark(Apache Spark)とは、膨大なデータを迅速、柔軟に分散並行処理を行うフレームワークです。分析ツールであるApache Hadoopと比較し、最大で100倍の速度でデータ処理ができるとされています。

0グッド

0クリップ

投稿2016/07/29 17:34

現在,SparkのRDDについて学んでいます。
しかし,RDD変換部分の処理についていまひとつ理解できておりません。
(RDDの中にリストやタプル2,タプル3が入っているときのmapやfilter処理の等)

上記についてわかりやすい文献またはサイトがありましたらご紹介下さい。
できればJavaで例題がかかれているとうれしいです。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

ベストアンサー

このあたりの記事が入門編で参考になるでしょうか?Javaコードサンプルもあります。
http://www.task-notes.com/entry/20160112/1452525344
http://www.task-notes.com/entry/20160131/1454214972
http://www.task-notes.com/entry/20160118/1453048418

多少記事が古いのとScalaですが以下サイトにRDDのメソッドの使い方がまとめられています。
http://www.ne.jp/asahi/hishidama/home/tech/scala/spark/RDD.html

ちなみにJavaのバージョンは8でしょうか?
Java7以下だと書き方が冗長になるのでJavaでやるならJava8をお勧めします。
Java8ならScalaとそこまで大差はないと思います(Spark使うにあたってですが)

投稿2016/08/03 01:05

guzzle

総合スコア43

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問