Spark

Spark(Apache Spark)とは、膨大なデータを迅速、柔軟に分散並行処理を行うフレームワークです。分析ツールであるApache Hadoopと比較し、最大で100倍の速度でデータ処理ができるとされています。

RSS

  • 解決済

    回答
    1

    複数同時にSpark実行した場合にサーバリソースが余っているのにジョブがWAITする

    前提・実現したいこと Apache Spark1.6.2でバッチアプリを作成しています。 Spark Standalon Modeでクラスタ環境を構築しています。 テスト用のサーバーは以下のようになっています。 ・masterサーバー(CPU4コア、メモリ8GB) ・worker01サーバー(CPU4コア、メモリ8GB) ・worker02サ

    • 0評価
    • 19PV
    guzzle guzzle 1週間前
  • 解決済

    回答
    1

    spark-submit で実行するpythonスクリプトでの標準入力

    spark-submit stdintest.pyというコマンドで下記のような標準入力から受け付けた値を判定するだけのpythonスクリプトを実行したのですが、値の入力は出来るものの、そのあとのprint('rewrite inp:~が実行されずenterを押しても行になにも表示されません。 「stdintest.py」 from pyspark

    • 0評価
    • 36PV
    f_t812 f_t812 1週間前
  • 受付中

    回答
    0

    event-drivenなAPIでSparkの処理を利用する場合の構成

    現在ユーザがデータとリクエストを送り、 リアルタイムに前処理・機械学習的処理を行い、 その結果を返すAPIの構築を考えております。 (Micro Service的な利用を想定しております。) 要するに、event-drivenなリアルタイム処理APIを sparkを組み込んで構成したいと考えております。 その場合どのような構成(ソケットや

    • 0評価
    • 40PV
    tree-fields tree-fields 1ヶ月前
  • 受付中

    回答
    0

    spark-submit --files オプションについて

    spark-submitの起動オプションにある--filesに関する質問です。 オプションの説明に、各executorのワークディレクトリーに配布されるファイルを指定する。 とありますが、--files /tmp/text/a.txtのように指定した場合、 /tmp/text/のディレクトリが各executorに存在していなければならない認識です。

    • 0評価
    • 65PV
    uruban uruban 2ヶ月前
  • 解決済

    回答
    1

    Apache Sparkでlogbackを使いたい

    前提・実現したいこと Apache Spark + Spring Bootでアプリケーションを構築しています。 Spring Bootだと標準でlogbackが入っているのでlogbackを使う設定を入れてましたが、 Sparkクラスタ上(stand aloneモード)で、spark-submitでアプリを実行してみると、 log周りの依存関係が問題

    • 0評価
    • 118PV
    guzzle guzzle 2ヶ月前
  • 受付中

    回答
    0

    Sparkをyarn-clusterモードで実行中,IOExceptionが発生しない

    Sparkをyarn-clusterモードで実行中,ファイルにアクセスする箇所があり, アクセス権限がない場合(パーミッションエラー),IOExceptionを発生させるようにしているのですが, 権限がなくアクセスできないにもかかわらずyarn-clusterのタスク実行結果はSUCCESS(IOException発生せず)となります。 アクセス権

    • 0評価
    • 93PV
    Ody Ody 2ヶ月前
  • 受付中

    回答
    0

    Spark:Python-APIでHBaseのFilterを利用してレコードを取得する方法

    SparkのPython-APIでHBaseのFilterを利用してレコードを取得する方法を知りたいです。 現在以下のようにSparkContextのnewAPIHadoopRDDメソッドでScanを利用してレコードを取得できています。 host = 'localhost' keyConv = "org.apache.spark.examples.p

    • 0評価
    • 120PV
    kuma3 kuma3 3ヶ月前
  • 受付中

    回答
    0

    Sparkでのエラー(ERROR YarnScheduler)について

    前提・実現したいこと Spark 1.6.2にて多量なデータを処理しているのですが、以下エラーメッセージがあり処理が失敗してしまいます。 どのような対処が必要でしょうか? 処理するデータの件数を抑えることで処理が正常に終わるので、メモリが起因ではないかと考えていますが、 どのパラメータをいじることで解決できるかがわかりません。 発生している問題

    • 0評価
    • 95PV
    zairu_1984 zairu_1984 3ヶ月前
  • 解決済

    回答
    1

    HerokuにJAVAのSPARKを使用した時のFreeMarkerのテンプレートパスの設定方法

    前提・実現したいこと HerokuでJAVAのWEBアプリを構築中です。 WEBフレームワークはSPARKを使用していおり、 画面のテンプレートとして、FreeMarkerを使用したいと思っています。 しかしFreeMarkerのテンプレートがローカルでは読み込めるのですが、 Heroku上ではうまく読み込めず困っています。 発生している問題

    • 0評価
    • 101PV
    oropatajin oropatajin 3ヶ月前
  • 受付中

    回答
    0

    spark-submitを連続実行で処理が中断される

    Apache Sparkにてspark-submitで複数回コマンドを発行しようとすると初回に実行した方が強制終了となってしまいます。 $SPARK_HOME/bin/spark-submit --master "local[*]" --class example.Example example.jar 同時もしくは初回の実行を待ち完了したあとで

    • 0評価
    • 122PV
    tera1111 tera1111 3ヶ月前
  • 解決済

    回答
    1

    SparkのRDDの処理について

    現在,SparkのRDDについて学んでいます。 しかし,RDD変換部分の処理についていまひとつ理解できておりません。 (RDDの中にリストやタプル2,タプル3が入っているときのmapやfilter処理の等) 上記についてわかりやすい文献またはサイトがありましたらご紹介下さい。 できればJavaで例題がかかれているとうれしいです。

    • 0評価
    • 118PV
    Ody Ody 4ヶ月前
  • 受付中

    回答
    1

    Spark HDFSをフォーマットできない(クラスタ環境)

    翔泳社の「Apache Spark入門」を元にSparkの学習を進めています。 3.3節でクラスタ環境を構築する手順があるのですが、HDFSをフォーマットする部分で失敗してしまいます。 構成 Amazon Linux クライアントノード1台 マスターノード1台 ワーカーノード2台(本では4台ですが費用を抑えるため2台にしています) 失敗

    • 0評価
    • 136PV
    kuma3 kuma3 4ヶ月前
  • 受付中

    回答
    1

    Apache Spark(Java) + Spring Boot構成で、Sparkアクション実行時に...

    前提・実現したいこと Apache Spark(Java) + Spring Boot構成で、バッチアプリを作成しています。 Sparkのアクション(foreachなど)実行の際、別オブジェクトをDIしようとすると、 Task not serializableエラーが発生します。 DIせずに普通にnewした場合は動作する事は確認済みなのですが、 ど

    • 0評価
    • 442PV
    guzzle guzzle 5ヶ月前
  • 解決済

    回答
    1

    Spark-submitについて

    前提・実現したいこと 今、ScalaとSparkとCassandraを組み合わせてAPIを設計しています。 その最中、spark-submitをしようとした際に問題が起こりました。 発生している問題・エラーメッセージ sbt assemblyを行って出来たjarファイルを用いて行った結果が以下になります。 % spark-submit --

    • 0評価
    • 207PV
    Yusei Yusei 6ヶ月前
  • 解決済

    回答
    1

    【Spark】フレームワークSparkの使い方について

    下記サイトを参考にしてみましたが、プロジェクトを実行という段階で詰まってしまいます。 開発環境はeclipseです。 http://qiita.com/kinmojr/items/bad842b6fffea39f81d6 実行をしてもメインが見つかりませんとか。 サーバで実行したところでhttp://localhost:4567/helloにアク

    • 0評価
    • 383PV
    kobahito kobahito 6ヶ月前
  • 解決済

    回答
    1

    Apache Spark MLlib (Scala) による主成分分析

    Apache Spark MLlib (Scala)に関して質問させて下さい。 質問 Spark MLlibで主成分分析をしたいのですが、RDD[(String, String, Double)]をRowMatrixに変換するにはどうすれば良いでしょうか? 下記の、データ変換のイメージをご参照いただき、そもそもやりたいことに対して、アプローチが

    • 1評価
    • 305PV
    Masaaki_Inaba Masaaki_Inaba 6ヶ月前
  • 受付中

    回答
    1

    spark yarn-clientモードで円周率の計算でエラー

    spark環境を構築したのですが、(yarnとhdfsを使用)円周率を計算するというコードが終了しません。(ずっと同じメッセージが1秒置きにながれる 最下部参照)解決方法をご存じの方がいたら教えて頂きたいです。 構成 centos6.5 spark-client spark-master hadoop-yarn-resourcemanage

    • 0評価
    • 377PV
    Day Day 9ヶ月前
  • 受付中

    回答
    0

    hadoopを移行に伴うツール選定について

    データ分析のためのツールを新しくしたいと思っています。 sparkとflinkの2つで考えているのですがどちらの方がおススメでしょうか? メリット・デメリットとともに教えていただけますでしょうか?

    • 0評価
    • 215PV
    arly_times arly_times 9ヶ月前
  • 受付中

    回答
    0

    pySparkのDataFrameとHashingTFで生成した特徴量を結合したい

    PySparkでSQLで特徴量を集計したデータを読み込んだDataFrameとHashingTFで生成されたDataFrameをidでjoinしたいのですが、HashingTFで生成されたDataFrameが(ハッシング数, [index],[value])のような形式になっているために意図的な結合ができません。 意図的な結合としては、 SQLによって事

    • 0評価
    • 225PV
    toohsk toohsk 9ヶ月前
  • 解決済

    回答
    1

    JAVAのWEBフレームワークSPARKでプロパティファイルを読込たい

    JAVAのバージョン:1.8 SPARKのバージョン:2.3 開発環境ではプロジェクトの直下にプロパティファイルを置いて、以下のようにやれば読めたのですが、 try (InputStreamReader reader = new InputStreamReader(new FileInputStream("プロパティ名"), "utf-8"){

    • 0評価
    • 292PV
    shimanp shimanp 10ヶ月前
1

もっと見る

タグ情報

  • あなたの順位

    -

  • タグ登録者数

    42

  • 総質問数

    23

  • 今週の質問数

    0

関連するタグ

思考するエンジニアのためのQ&Aサイト「teratail」について詳しく知る