Spark

Spark(Apache Spark)とは、膨大なデータを迅速、柔軟に分散並行処理を行うフレームワークです。分析ツールであるApache Hadoopと比較し、最大で100倍の速度でデータ処理ができるとされています。

RSS

  • 受付中

    回答
    0

    Sparkでmapしたときの中身を見たい

    ドキュメントを丸写しして,レコメンデーションを作りたいと考えています. mapを行なったときにRDD is emptyというエラーが出たため,mapを行なったときの中身を確認したいと考え,どのようにしたら出力できるかお教えいただきたく,質問しました. よろしくお願いいたします. 環境 apache-spark 2.1.0 # data = sc.

    • 0評価
    • 51PV
    utoka utoka 4週間前
  • 受付中

    回答
    0

    Spark MLlibをPythonで動かしてレコメンデーションについて

    以下を参考にSpark MLlibをPythonで動かしてレコメンデーションの結果を得たいと考えています. 参考のキータURL model = ALS.train(ratings, rank, numIterations) データの学習のところでつまずいているのですが,どのような修正をすればALS.trainがつかえるようになりますでしょうか? 初心

    • 0評価
    • 67PV
    utoka utoka 1ヶ月前
  • 受付中

    回答
    1

    sparkjava thymeleafのform情報送信やバリデーションについて

    表題の件につきまして、現在やり方がわかっておりません。 spring-thymeleafではform情報を以下のようにやり取りできると思いますが、 sparkjavaの場合はどのように実現できるのでしょうか? ■springの例 Controller public String xxx(@Valid @ModelAttribute("for

    • 0評価
    • 131PV
    masue101 masue101 2ヶ月前
  • 受付中

    回答
    0

    storm-kafka の MultiScheme の作り方がわかりません

    KafkaからStormにデータを流すものを作りたいのですが、Storm側でKafkaから送られてきたデータをDeserializeする方法がわからなかったため、質問させて頂きました。 ここを参考に、KafkaSpoutを作成し、kafka-console-producer から送られてきたデータを受取り、StringScheme()を使って Kafk

    • 0評価
    • 126PV
    sido_mura sido_mura 4ヶ月前
  • 解決済

    回答
    1

    Sparkの導入時のエラー

    最近Apach Sparkの勉強を始めようとしています。 初めてのSparkという本を買いDownloadから始めているのですが早速エラーになってしまいました。 Windows環境でSparkのシェルを用いたサンプルコードを入れたのですがエラーの意味が全く分からず困っています。 >>> lines = sc.textFile("README.md"

    • 0評価
    • 233PV
    hilotoc hilotoc 5ヶ月前
  • 受付中

    回答
    0

    spark実行で後続ジョブ実行のやり方について

    前提・実現したいこと Apache Spark1.6.2でバッチアプリを作成しています。 Spark Standalon Modeでクラスタ環境を構築しています。 やりたい事は、 Aジョブをspark-submitする Aジョブが正常終了したら、後続ジョブとしてBジョブをspark-submitする ※spark-submi

    • 0評価
    • 159PV
    guzzle guzzle 5ヶ月前
  • 解決済

    回答
    1

    複数同時にSpark実行した場合にサーバリソースが余っているのにジョブがWAITする

    前提・実現したいこと Apache Spark1.6.2でバッチアプリを作成しています。 Spark Standalon Modeでクラスタ環境を構築しています。 テスト用のサーバーは以下のようになっています。 ・masterサーバー(CPU4コア、メモリ8GB) ・worker01サーバー(CPU4コア、メモリ8GB) ・worker02サ

    • 0評価
    • 220PV
    guzzle guzzle 6ヶ月前
  • 解決済

    回答
    1

    spark-submit で実行するpythonスクリプトでの標準入力

    spark-submit stdintest.pyというコマンドで下記のような標準入力から受け付けた値を判定するだけのpythonスクリプトを実行したのですが、値の入力は出来るものの、そのあとのprint('rewrite inp:~が実行されずenterを押しても行になにも表示されません。 「stdintest.py」 from pyspark

    • 0評価
    • 235PV
    f_t812 f_t812 6ヶ月前
  • 受付中

    回答
    0

    event-drivenなAPIでSparkの処理を利用する場合の構成

    現在ユーザがデータとリクエストを送り、 リアルタイムに前処理・機械学習的処理を行い、 その結果を返すAPIの構築を考えております。 (Micro Service的な利用を想定しております。) 要するに、event-drivenなリアルタイム処理APIを sparkを組み込んで構成したいと考えております。 その場合どのような構成(ソケットや

    • 0評価
    • 187PV
    tree-fields tree-fields 7ヶ月前
  • 受付中

    回答
    0

    spark-submit --files オプションについて

    spark-submitの起動オプションにある--filesに関する質問です。 オプションの説明に、各executorのワークディレクトリーに配布されるファイルを指定する。 とありますが、--files /tmp/text/a.txtのように指定した場合、 /tmp/text/のディレクトリが各executorに存在していなければならない認識です。

    • 0評価
    • 255PV
    uruban uruban 8ヶ月前
  • 解決済

    回答
    1

    Apache Sparkでlogbackを使いたい

    前提・実現したいこと Apache Spark + Spring Bootでアプリケーションを構築しています。 Spring Bootだと標準でlogbackが入っているのでlogbackを使う設定を入れてましたが、 Sparkクラスタ上(stand aloneモード)で、spark-submitでアプリを実行してみると、 log周りの依存関係が問題

    • 0評価
    • 341PV
    guzzle guzzle 8ヶ月前
  • 受付中

    回答
    0

    Sparkをyarn-clusterモードで実行中,IOExceptionが発生しない

    Sparkをyarn-clusterモードで実行中,ファイルにアクセスする箇所があり, アクセス権限がない場合(パーミッションエラー),IOExceptionを発生させるようにしているのですが, 権限がなくアクセスできないにもかかわらずyarn-clusterのタスク実行結果はSUCCESS(IOException発生せず)となります。 アクセス権

    • 0評価
    • 282PV
    Ody Ody 8ヶ月前
  • 受付中

    回答
    0

    Spark:Python-APIでHBaseのFilterを利用してレコードを取得する方法

    SparkのPython-APIでHBaseのFilterを利用してレコードを取得する方法を知りたいです。 現在以下のようにSparkContextのnewAPIHadoopRDDメソッドでScanを利用してレコードを取得できています。 host = 'localhost' keyConv = "org.apache.spark.examples.p

    • 0評価
    • 330PV
    kuma3 kuma3 9ヶ月前
  • 受付中

    回答
    0

    Sparkでのエラー(ERROR YarnScheduler)について

    前提・実現したいこと Spark 1.6.2にて多量なデータを処理しているのですが、以下エラーメッセージがあり処理が失敗してしまいます。 どのような対処が必要でしょうか? 処理するデータの件数を抑えることで処理が正常に終わるので、メモリが起因ではないかと考えていますが、 どのパラメータをいじることで解決できるかがわかりません。 発生している問題

    • 0評価
    • 299PV
    zairu_1984 zairu_1984 9ヶ月前
  • 解決済

    回答
    1

    HerokuにJAVAのSPARKを使用した時のFreeMarkerのテンプレートパスの設定方法

    前提・実現したいこと HerokuでJAVAのWEBアプリを構築中です。 WEBフレームワークはSPARKを使用していおり、 画面のテンプレートとして、FreeMarkerを使用したいと思っています。 しかしFreeMarkerのテンプレートがローカルでは読み込めるのですが、 Heroku上ではうまく読み込めず困っています。 発生している問題

    • 0評価
    • 293PV
    oropatajin oropatajin 9ヶ月前
  • 受付中

    回答
    0

    spark-submitを連続実行で処理が中断される

    Apache Sparkにてspark-submitで複数回コマンドを発行しようとすると初回に実行した方が強制終了となってしまいます。 $SPARK_HOME/bin/spark-submit --master "local[*]" --class example.Example example.jar 同時もしくは初回の実行を待ち完了したあとで

    • 0評価
    • 330PV
    tera1111 tera1111 9ヶ月前
  • 解決済

    回答
    1

    SparkのRDDの処理について

    現在,SparkのRDDについて学んでいます。 しかし,RDD変換部分の処理についていまひとつ理解できておりません。 (RDDの中にリストやタプル2,タプル3が入っているときのmapやfilter処理の等) 上記についてわかりやすい文献またはサイトがありましたらご紹介下さい。 できればJavaで例題がかかれているとうれしいです。

    • 0評価
    • 285PV
    Ody Ody 10ヶ月前
  • 受付中

    回答
    1

    Spark HDFSをフォーマットできない(クラスタ環境)

    翔泳社の「Apache Spark入門」を元にSparkの学習を進めています。 3.3節でクラスタ環境を構築する手順があるのですが、HDFSをフォーマットする部分で失敗してしまいます。 構成 Amazon Linux クライアントノード1台 マスターノード1台 ワーカーノード2台(本では4台ですが費用を抑えるため2台にしています) 失敗

    • 0評価
    • 350PV
    kuma3 kuma3 10ヶ月前
  • 受付中

    回答
    1

    Apache Spark(Java) + Spring Boot構成で、Sparkアクション実行時に...

    前提・実現したいこと Apache Spark(Java) + Spring Boot構成で、バッチアプリを作成しています。 Sparkのアクション(foreachなど)実行の際、別オブジェクトをDIしようとすると、 Task not serializableエラーが発生します。 DIせずに普通にnewした場合は動作する事は確認済みなのですが、 ど

    • 0評価
    • 841PV
    guzzle guzzle 11ヶ月前
  • 解決済

    回答
    1

    Spark-submitについて

    前提・実現したいこと 今、ScalaとSparkとCassandraを組み合わせてAPIを設計しています。 その最中、spark-submitをしようとした際に問題が起こりました。 発生している問題・エラーメッセージ sbt assemblyを行って出来たjarファイルを用いて行った結果が以下になります。 % spark-submit --

    • 0評価
    • 404PV
    Yusei Yusei 11ヶ月前
1

タグ情報

  • あなたの順位

    -

  • タグ登録者数

    50

  • 総質問数

    29

  • 今週の質問数

    0

関連するタグ

思考するエンジニアのためのQ&Aサイト「teratail」について詳しく知る