Spark

Spark(Apache Spark)とは、膨大なデータを迅速、柔軟に分散並行処理を行うフレームワークです。分析ツールであるApache Hadoopと比較し、最大で100倍の速度でデータ処理ができるとされています。

RSS

  • 受付中

    回答
    0

    kafkaのzookeeperの挙動がわかりません

    kafkaを使っています。 topicの中にbrokerを2つ登録し、producerから送りまくっていじめたところ、 broker2がtopicから勝手に落ちる現象がありました。broker2が落ちたわけではありません。サーバーも元気でした zookeeperの挙動がおかしいのかなと思ったのですが、zookeeperのstatusやログの見方がわかりま

    • 0評価
    • 39PV
    teratailが2週間前に アップデート
  • 解決済

    回答
    1

    PySparkで列の取得と加工と追加

    PySparkで以下のような処理をできたらと思っています. 【処理内容】 タイムスタンプの列から文字列をとってきて,新しい列(dayとtime)に追加したいと考えています. pythonとsparkがともに初心者のため,是非お教えいただければ幸甚です. //#import liblaries import pandas as pd import nump

    • 0評価
    • 132PV
    utoka utoka 2ヶ月前に コメント
  • 受付中

    回答
    0

    Sparkでmapしたときの中身を見たい

    ドキュメントを丸写しして,レコメンデーションを作りたいと考えています. mapを行なったときにRDD is emptyというエラーが出たため,mapを行なったときの中身を確認したいと考え,どのようにしたら出力できるかお教えいただきたく,質問しました. よろしくお願いいたします. 環境 apache-spark 2.1.0 # data = sc.

    • 0評価
    • 158PV
    teratailが4ヶ月前に アップデート
  • 受付中

    回答
    0

    Spark MLlibをPythonで動かしてレコメンデーションについて

    以下を参考にSpark MLlibをPythonで動かしてレコメンデーションの結果を得たいと考えています. 参考のキータURL model = ALS.train(ratings, rank, numIterations) データの学習のところでつまずいているのですが,どのような修正をすればALS.trainがつかえるようになりますでしょうか? 初心

    • 0評価
    • 200PV
    teratailが4ヶ月前に アップデート
  • 受付中

    回答
    1

    sparkjava thymeleafのform情報送信やバリデーションについて

    表題の件につきまして、現在やり方がわかっておりません。 spring-thymeleafではform情報を以下のようにやり取りできると思いますが、 sparkjavaの場合はどのように実現できるのでしょうか? ■springの例 Controller public String xxx(@Valid @ModelAttribute("for

    • 0評価
    • 270PV
    n-tos n-tos 6ヶ月前に 回答
  • 受付中

    回答
    0

    storm-kafka の MultiScheme の作り方がわかりません

    KafkaからStormにデータを流すものを作りたいのですが、Storm側でKafkaから送られてきたデータをDeserializeする方法がわからなかったため、質問させて頂きました。 ここを参考に、KafkaSpoutを作成し、kafka-console-producer から送られてきたデータを受取り、StringScheme()を使って Kafk

    • 0評価
    • 231PV
    teratailが8ヶ月前に アップデート
  • 解決済

    回答
    1

    Sparkの導入時のエラー

    最近Apach Sparkの勉強を始めようとしています。 初めてのSparkという本を買いDownloadから始めているのですが早速エラーになってしまいました。 Windows環境でSparkのシェルを用いたサンプルコードを入れたのですがエラーの意味が全く分からず困っています。 >>> lines = sc.textFile("README.md"

    • 0評価
    • 358PV
    hilotoc hilotoc 9ヶ月前に ベストアンサー
  • 受付中

    回答
    0

    spark実行で後続ジョブ実行のやり方について

    前提・実現したいこと Apache Spark1.6.2でバッチアプリを作成しています。 Spark Standalon Modeでクラスタ環境を構築しています。 やりたい事は、 Aジョブをspark-submitする Aジョブが正常終了したら、後続ジョブとしてBジョブをspark-submitする ※spark-submi

    • 0評価
    • 266PV
    teratailが9ヶ月前に アップデート
  • 解決済

    回答
    1

    複数同時にSpark実行した場合にサーバリソースが余っているのにジョブがWAITする

    前提・実現したいこと Apache Spark1.6.2でバッチアプリを作成しています。 Spark Standalon Modeでクラスタ環境を構築しています。 テスト用のサーバーは以下のようになっています。 ・masterサーバー(CPU4コア、メモリ8GB) ・worker01サーバー(CPU4コア、メモリ8GB) ・worker02サ

    • 0評価
    • 405PV
    guzzle guzzle 10ヶ月前に 回答
  • 解決済

    回答
    1

    spark-submit で実行するpythonスクリプトでの標準入力

    spark-submit stdintest.pyというコマンドで下記のような標準入力から受け付けた値を判定するだけのpythonスクリプトを実行したのですが、値の入力は出来るものの、そのあとのprint('rewrite inp:~が実行されずenterを押しても行になにも表示されません。 「stdintest.py」 from pyspark

    • 0評価
    • 397PV
    f_t812 f_t812 10ヶ月前に ベストアンサー
  • 解決済

    回答
    1

    Apache Sparkでlogbackを使いたい

    前提・実現したいこと Apache Spark + Spring Bootでアプリケーションを構築しています。 Spring Bootだと標準でlogbackが入っているのでlogbackを使う設定を入れてましたが、 Sparkクラスタ上(stand aloneモード)で、spark-submitでアプリを実行してみると、 log周りの依存関係が問題

    • 0評価
    • 487PV
    guzzle guzzle 10ヶ月前に 回答
  • 受付中

    回答
    0

    event-drivenなAPIでSparkの処理を利用する場合の構成

    現在ユーザがデータとリクエストを送り、 リアルタイムに前処理・機械学習的処理を行い、 その結果を返すAPIの構築を考えております。 (Micro Service的な利用を想定しております。) 要するに、event-drivenなリアルタイム処理APIを sparkを組み込んで構成したいと考えております。 その場合どのような構成(ソケットや

    • 0評価
    • 264PV
    teratailが11ヶ月前に アップデート
  • 受付中

    回答
    0

    spark-submit --files オプションについて

    spark-submitの起動オプションにある--filesに関する質問です。 オプションの説明に、各executorのワークディレクトリーに配布されるファイルを指定する。 とありますが、--files /tmp/text/a.txtのように指定した場合、 /tmp/text/のディレクトリが各executorに存在していなければならない認識です。

    • 0評価
    • 383PV
    teratailが11ヶ月前に アップデート
  • 受付中

    回答
    0

    Sparkをyarn-clusterモードで実行中,IOExceptionが発生しない

    Sparkをyarn-clusterモードで実行中,ファイルにアクセスする箇所があり, アクセス権限がない場合(パーミッションエラー),IOExceptionを発生させるようにしているのですが, 権限がなくアクセスできないにもかかわらずyarn-clusterのタスク実行結果はSUCCESS(IOException発生せず)となります。 アクセス権

    • 0評価
    • 405PV
    teratailが1年以上前に アップデート
  • 受付中

    回答
    0

    Spark:Python-APIでHBaseのFilterを利用してレコードを取得する方法

    SparkのPython-APIでHBaseのFilterを利用してレコードを取得する方法を知りたいです。 現在以下のようにSparkContextのnewAPIHadoopRDDメソッドでScanを利用してレコードを取得できています。 host = 'localhost' keyConv = "org.apache.spark.examples.p

    • 0評価
    • 462PV
    teratailが1年以上前に アップデート
  • 受付中

    回答
    0

    Sparkでのエラー(ERROR YarnScheduler)について

    前提・実現したいこと Spark 1.6.2にて多量なデータを処理しているのですが、以下エラーメッセージがあり処理が失敗してしまいます。 どのような対処が必要でしょうか? 処理するデータの件数を抑えることで処理が正常に終わるので、メモリが起因ではないかと考えていますが、 どのパラメータをいじることで解決できるかがわかりません。 発生している問題

    • 0評価
    • 417PV
    teratailが1年以上前に アップデート
  • 受付中

    回答
    0

    spark-submitを連続実行で処理が中断される

    Apache Sparkにてspark-submitで複数回コマンドを発行しようとすると初回に実行した方が強制終了となってしまいます。 $SPARK_HOME/bin/spark-submit --master "local[*]" --class example.Example example.jar 同時もしくは初回の実行を待ち完了したあとで

    • 0評価
    • 455PV
    teratailが1年以上前に アップデート
  • 解決済

    回答
    1

    HerokuにJAVAのSPARKを使用した時のFreeMarkerのテンプレートパスの設定方法

    前提・実現したいこと HerokuでJAVAのWEBアプリを構築中です。 WEBフレームワークはSPARKを使用していおり、 画面のテンプレートとして、FreeMarkerを使用したいと思っています。 しかしFreeMarkerのテンプレートがローカルでは読み込めるのですが、 Heroku上ではうまく読み込めず困っています。 発生している問題

    • 0評価
    • 413PV
    oropatajin oropatajin 1年以上前に 回答
  • 受付中

    回答
    1

    Spark HDFSをフォーマットできない(クラスタ環境)

    翔泳社の「Apache Spark入門」を元にSparkの学習を進めています。 3.3節でクラスタ環境を構築する手順があるのですが、HDFSをフォーマットする部分で失敗してしまいます。 構成 Amazon Linux クライアントノード1台 マスターノード1台 ワーカーノード2台(本では4台ですが費用を抑えるため2台にしています) 失敗

    • 0評価
    • 484PV
    G05ST G05ST 1年以上前に 回答
  • 解決済

    回答
    1

    SparkのRDDの処理について

    現在,SparkのRDDについて学んでいます。 しかし,RDD変換部分の処理についていまひとつ理解できておりません。 (RDDの中にリストやタプル2,タプル3が入っているときのmapやfilter処理の等) 上記についてわかりやすい文献またはサイトがありましたらご紹介下さい。 できればJavaで例題がかかれているとうれしいです。

    • 0評価
    • 408PV
    Ody Ody 1年以上前に ベストアンサー
1

タグ情報

  • あなたの順位

    -

  • タグ登録者数

    52

  • 総質問数

    31

  • 今週の質問数

    0

関連するタグ

思考するエンジニアのためのQ&Aサイト「teratail」について詳しく知る