Spark

Spark(Apache Spark)とは、膨大なデータを迅速、柔軟に分散並行処理を行うフレームワークです。分析ツールであるApache Hadoopと比較し、最大で100倍の速度でデータ処理ができるとされています。

RSS
  • 解決済

    回答
    1

    DataFrameからSQLで値のみを取得する方法

    お世話になっております。 YYYYMMDDでパーティション分割したデータがあります。 これを DataFrame に登録してパーティションの情報をSQLで取得し、 パーティション情報をリストとして後続の処理で利用したいと考えています。 #読み込み partitioninfo = spark.read.csv(PartitionPath, header

    • 0評価
    • 66PV
    11da 11da 2週間前に コメント
  • 受付中

    回答
    0

    spark-submitでjarを指定し実行するとIOExceptionが発生する

    spark-submitでScala+sbtで作成したjarを指定し実行すると、 下記Exceptionが発生しSparkアプリケーションが起動に失敗します。 エラー原因として起動時にフォルダを作成し削除する際に削除できずにエラーとなっています。 こちらはなぜ削除でエラーとなっているか分かりますでしょうか? またこのディレクトリを作成する場所を変更す

    • 0評価
    • 82PV
    teratailが1ヶ月前に アップデート
  • 受付中

    回答
    0

    Botkitを利用した投稿メッセージの全保存

    前提・実現したいこと 現在、botkitでCiscoSparkのbotを作成しております。 botの利用状況確認および投稿メッセージ分析のため、botに話しかけているメッセージ・投稿者をデータとして保存したいと考えています。 投稿された全てのメッセージを保存する方法をご教示いただけませんでしょうか? コードは、指定文字の受け答えとして、以下を数百コ

    • 0評価
    • 65PV
    teratailが2ヶ月前に アップデート
  • 受付中

    回答
    1

    kotlin spark framework hello world

    環境 intelliJ IDEA2017.2 を使っています。 ext.kotlin_version = '1.1.1' dependencies { compile "com.sparkjava:spark-core:2.6.0" } SLF4J: Failed to load class "org.slf4j.impl.StaticLo

    • 0評価
    • 256PV
    mosa mosa 3ヶ月前に 回答
  • 解決済

    回答
    1

    Macでのpyspark設定

    基本設定に関して質問です。ご回答宜しくお願いいたします。 Macにて、Homebrewを使用してapache-sparkをインストールしました。 pysparkを使用しているのですが、警告レベルがINFOのため、ログがかなり邪魔です。 WARNに設定して、ログを削減したいのですが、うまくいかず、ご教示お願いいたします。 apache-spark vers

    • 1評価
    • 106PV
    tetsu1 退会済みユーザー 4ヶ月前に 回答
  • 受付中

    回答
    0

    kafkaのzookeeperの挙動がわかりません

    kafkaを使っています。 topicの中にbrokerを2つ登録し、producerから送りまくっていじめたところ、 broker2がtopicから勝手に落ちる現象がありました。broker2が落ちたわけではありません。サーバーも元気でした zookeeperの挙動がおかしいのかなと思ったのですが、zookeeperのstatusやログの見方がわかりま

    • 0評価
    • 279PV
    teratailが10ヶ月前に アップデート
  • 解決済

    回答
    1

    PySparkで列の取得と加工と追加

    PySparkで以下のような処理をできたらと思っています. 【処理内容】 タイムスタンプの列から文字列をとってきて,新しい列(dayとtime)に追加したいと考えています. pythonとsparkがともに初心者のため,是非お教えいただければ幸甚です. //#import liblaries import pandas as pd import nump

    • 0評価
    • 515PV
    utoka utoka 1年以上前に コメント
  • 受付中

    回答
    0

    Sparkでmapしたときの中身を見たい

    ドキュメントを丸写しして,レコメンデーションを作りたいと考えています. mapを行なったときにRDD is emptyというエラーが出たため,mapを行なったときの中身を確認したいと考え,どのようにしたら出力できるかお教えいただきたく,質問しました. よろしくお願いいたします. 環境 apache-spark 2.1.0 # data = sc.

    • 0評価
    • 402PV
    teratailが1年以上前に アップデート
  • 受付中

    回答
    0

    Spark MLlibをPythonで動かしてレコメンデーションについて

    以下を参考にSpark MLlibをPythonで動かしてレコメンデーションの結果を得たいと考えています. 参考のキータURL model = ALS.train(ratings, rank, numIterations) データの学習のところでつまずいているのですが,どのような修正をすればALS.trainがつかえるようになりますでしょうか? 初心

    • 0評価
    • 474PV
    teratailが1年以上前に アップデート
  • 受付中

    回答
    1

    sparkjava thymeleafのform情報送信やバリデーションについて

    表題の件につきまして、現在やり方がわかっておりません。 spring-thymeleafではform情報を以下のようにやり取りできると思いますが、 sparkjavaの場合はどのように実現できるのでしょうか? ■springの例 Controller public String xxx(@Valid @ModelAttribute("for

    • 0評価
    • 641PV
    n-tos n-tos 1年以上前に 回答
  • 受付中

    回答
    0

    storm-kafka の MultiScheme の作り方がわかりません

    KafkaからStormにデータを流すものを作りたいのですが、Storm側でKafkaから送られてきたデータをDeserializeする方法がわからなかったため、質問させて頂きました。 ここを参考に、KafkaSpoutを作成し、kafka-console-producer から送られてきたデータを受取り、StringScheme()を使って Kafk

    • 0評価
    • 437PV
    teratailが1年以上前に アップデート
  • 解決済

    回答
    1

    Sparkの導入時のエラー

    最近Apach Sparkの勉強を始めようとしています。 初めてのSparkという本を買いDownloadから始めているのですが早速エラーになってしまいました。 Windows環境でSparkのシェルを用いたサンプルコードを入れたのですがエラーの意味が全く分からず困っています。 >>> lines = sc.textFile("README.md"

    • 0評価
    • 690PV
    hilotoc hilotoc 1年以上前に ベストアンサー
  • 受付中

    回答
    0

    spark実行で後続ジョブ実行のやり方について

    前提・実現したいこと Apache Spark1.6.2でバッチアプリを作成しています。 Spark Standalon Modeでクラスタ環境を構築しています。 やりたい事は、 Aジョブをspark-submitする Aジョブが正常終了したら、後続ジョブとしてBジョブをspark-submitする ※spark-submi

    • 0評価
    • 467PV
    teratailが1年以上前に アップデート
  • 解決済

    回答
    1

    複数同時にSpark実行した場合にサーバリソースが余っているのにジョブがWAITする

    前提・実現したいこと Apache Spark1.6.2でバッチアプリを作成しています。 Spark Standalon Modeでクラスタ環境を構築しています。 テスト用のサーバーは以下のようになっています。 ・masterサーバー(CPU4コア、メモリ8GB) ・worker01サーバー(CPU4コア、メモリ8GB) ・worker02サ

    • 0評価
    • 858PV
    guzzle guzzle 1年以上前に 回答
  • 解決済

    回答
    1

    spark-submit で実行するpythonスクリプトでの標準入力

    spark-submit stdintest.pyというコマンドで下記のような標準入力から受け付けた値を判定するだけのpythonスクリプトを実行したのですが、値の入力は出来るものの、そのあとのprint('rewrite inp:~が実行されずenterを押しても行になにも表示されません。 「stdintest.py」 from pyspark

    • 0評価
    • 817PV
    f_t812 f_t812 1年以上前に ベストアンサー
  • 解決済

    回答
    1

    Apache Sparkでlogbackを使いたい

    前提・実現したいこと Apache Spark + Spring Bootでアプリケーションを構築しています。 Spring Bootだと標準でlogbackが入っているのでlogbackを使う設定を入れてましたが、 Sparkクラスタ上(stand aloneモード)で、spark-submitでアプリを実行してみると、 log周りの依存関係が問題

    • 0評価
    • 778PV
    guzzle guzzle 1年以上前に 回答
  • 受付中

    回答
    0

    event-drivenなAPIでSparkの処理を利用する場合の構成

    現在ユーザがデータとリクエストを送り、 リアルタイムに前処理・機械学習的処理を行い、 その結果を返すAPIの構築を考えております。 (Micro Service的な利用を想定しております。) 要するに、event-drivenなリアルタイム処理APIを sparkを組み込んで構成したいと考えております。 その場合どのような構成(ソケットや

    • 0評価
    • 390PV
    teratailが1年以上前に アップデート
  • 受付中

    回答
    0

    spark-submit --files オプションについて

    spark-submitの起動オプションにある--filesに関する質問です。 オプションの説明に、各executorのワークディレクトリーに配布されるファイルを指定する。 とありますが、--files /tmp/text/a.txtのように指定した場合、 /tmp/text/のディレクトリが各executorに存在していなければならない認識です。

    • 0評価
    • 643PV
    teratailが1年以上前に アップデート
  • 受付中

    回答
    0

    Sparkをyarn-clusterモードで実行中,IOExceptionが発生しない

    Sparkをyarn-clusterモードで実行中,ファイルにアクセスする箇所があり, アクセス権限がない場合(パーミッションエラー),IOExceptionを発生させるようにしているのですが, 権限がなくアクセスできないにもかかわらずyarn-clusterのタスク実行結果はSUCCESS(IOException発生せず)となります。 アクセス権

    • 0評価
    • 676PV
    teratailが1年以上前に アップデート
  • 受付中

    回答
    0

    Spark:Python-APIでHBaseのFilterを利用してレコードを取得する方法

    SparkのPython-APIでHBaseのFilterを利用してレコードを取得する方法を知りたいです。 現在以下のようにSparkContextのnewAPIHadoopRDDメソッドでScanを利用してレコードを取得できています。 host = 'localhost' keyConv = "org.apache.spark.examples.p

    • 0評価
    • 781PV
    teratailが1年以上前に アップデート
1

タグ情報

  • あなたの順位

    -

  • タグ登録者数

    60

  • 総質問数

    36

  • 今週の質問数

    0

関連するタグ

Sparkタグのよく見られている質問

思考するエンジニアのためのQ&Aサイト「teratail」について詳しく知る