Hadoop

Apache Hadoopは大規模なデータの分散処理をサポートするJavaソフトウェアフレームワークです。Hadoopを利用すると、数千ノードおよびペタバイト級のアプリケーションデータを処理することができます。

RSS

  • 解決済

    回答
    1

    物理的に分散しているサーバー上のデータを処理するためにHadoopは適しているか?

    前提・実現したいこと 現在,研究で物理的に世界中に分散しているサーバー上のデータにアクセスし, あるバッチ処理を行なわなければならなくなりました. そこでなんとなく調べたところHadoopが使えるのではないかと感じました. しかし知識不足なためイマイチ実現できそうかどうかがわかりません. ここで質問なのですが,ある程度ファイルの配置や設定等をこ

    • 0評価
    • 57PV
    gainings gainings 4週間前に コメント
  • 受付中

    回答
    0

    storm-kafka の MultiScheme の作り方がわかりません

    KafkaからStormにデータを流すものを作りたいのですが、Storm側でKafkaから送られてきたデータをDeserializeする方法がわからなかったため、質問させて頂きました。 ここを参考に、KafkaSpoutを作成し、kafka-console-producer から送られてきたデータを受取り、StringScheme()を使って Kafk

    • 0評価
    • 149PV
    teratailが5ヶ月前に アップデート
  • 受付中

    回答
    0

    グラフ構造の分散処理について

    グラフ構造のデータをインプットとした分散処理はいろんなシステムが紹介されていると思います。もともと分散処理を提供しているようなneo4jなどのデータベースも存在すると思います。ここで疑問なのですが グラフ構造に対して分散処理をする利点とはなんなのでしょうか?例えばhadoopやgiraphなどでは分散処理をするフレームワークとして知られます。 分散と

    • 0評価
    • 288PV
    teratailが8ヶ月前に アップデート
  • 解決済

    回答
    1

    kafkaの仕組みについて

    apache kafkaについて質問です。apache kafkaではpubの送信をbrokerがsubscribeしているコンシューマに届ける必要があります。この設定はどのように行っているのでしょうか?調べても具体的な話が載っていなかったのですが例えばbrokerにコンシューマの購読情報を設定するのだと想像しますがそもそもこの設定はどのようにほどこすのでし

    • 0評価
    • 285PV
    kkkmokotan kkkmokotan 8ヶ月前に ベストアンサー
  • 受付中

    回答
    0

    spark-submit --files オプションについて

    spark-submitの起動オプションにある--filesに関する質問です。 オプションの説明に、各executorのワークディレクトリーに配布されるファイルを指定する。 とありますが、--files /tmp/text/a.txtのように指定した場合、 /tmp/text/のディレクトリが各executorに存在していなければならない認識です。

    • 0評価
    • 287PV
    teratailが8ヶ月前に アップデート
  • 受付中

    回答
    0

    Sparkをyarn-clusterモードで実行中,IOExceptionが発生しない

    Sparkをyarn-clusterモードで実行中,ファイルにアクセスする箇所があり, アクセス権限がない場合(パーミッションエラー),IOExceptionを発生させるようにしているのですが, 権限がなくアクセスできないにもかかわらずyarn-clusterのタスク実行結果はSUCCESS(IOException発生せず)となります。 アクセス権

    • 0評価
    • 315PV
    teratailが9ヶ月前に アップデート
  • 受付中

    回答
    2

    Hadoopでお仕事をされている方々に質問です。

    お世話になっております。 今月から業務で、Hadoop(hive)を導入することになりました。 そこで、Hadoopの学習を0からすることをなったのですが、 公式ページ以外で参考になる記事、書籍等でオススメはありましたら教えて頂きたいと思っております。 ※teratailさん、qiitaさんは利用します。 また、Hadoopに関して役に立つ情報ありました

    • 0評価
    • 775PV
    zairu_1984 zairu_1984 10ヶ月前に 回答
  • 受付中

    回答
    0

    spark-submitを連続実行で処理が中断される

    Apache Sparkにてspark-submitで複数回コマンドを発行しようとすると初回に実行した方が強制終了となってしまいます。 $SPARK_HOME/bin/spark-submit --master "local[*]" --class example.Example example.jar 同時もしくは初回の実行を待ち完了したあとで

    • 0評価
    • 367PV
    teratailが10ヶ月前に アップデート
  • 受付中

    回答
    1

    HadoopのHDFSコマンドについて

    「hdfs dfs」コマンドと「hadoop fs」コマンドの違いがあれば教えて下さい。

    • 0評価
    • 794PV
    G05ST G05ST 10ヶ月前に 回答
  • 受付中

    回答
    1

    Spark HDFSをフォーマットできない(クラスタ環境)

    翔泳社の「Apache Spark入門」を元にSparkの学習を進めています。 3.3節でクラスタ環境を構築する手順があるのですが、HDFSをフォーマットする部分で失敗してしまいます。 構成 Amazon Linux クライアントノード1台 マスターノード1台 ワーカーノード2台(本では4台ですが費用を抑えるため2台にしています) 失敗

    • 0評価
    • 374PV
    G05ST G05ST 10ヶ月前に 回答
  • 解決済

    回答
    1

    SparkのRDDの処理について

    現在,SparkのRDDについて学んでいます。 しかし,RDD変換部分の処理についていまひとつ理解できておりません。 (RDDの中にリストやタプル2,タプル3が入っているときのmapやfilter処理の等) 上記についてわかりやすい文献またはサイトがありましたらご紹介下さい。 できればJavaで例題がかかれているとうれしいです。

    • 0評価
    • 301PV
    Ody Ody 10ヶ月前に ベストアンサー
  • 受付中

    回答
    0

    Hadoopでのスクリプト実行環境で明確にしないと設計できないものについて悩んでいます。

    Amazon EMRを利用したシステムの設計を行うのですが、以下を明確にしないと設計できないものについて悩んでいます。 以下の内容へのアドバイス及び、ここも気を付けた方が良いよ!という点があればアドバイスをお願いします。 EMRクラスター(Hadoop)をローカルで実行するためにCDHかHDPか(基準:どちらが検証しやすいか) EMRでど

    • 0評価
    • 296PV
    teratailが10ヶ月前に アップデート
  • 受付中

    回答
    0

    Hadoop MapReduceエラー No such file or directory

    Hadoopを勉強中でHadoopストリーミングをテストするためrubyで書いたmapperとreducerが正しく動作するかコマンドラインからMapReduceを実行してみました。 しかし、mapper.rbがないと下記のようにエラーが表示されて正しくジョブが実行されません。 dir/usercache/Kuma/appcache/applicat

    • 0評価
    • 284PV
    teratailが11ヶ月前に アップデート
  • 解決済

    回答
    2

    GPUとCPUの並列処理について

    GPUとCPUのマシンを複数台もちいてHadoopのような並列分散処理を実行さようと考えています. このようなシステムを組むことは可能なのでしょうか? 具体的な手法や開発環境を知っているかたがおられたらコメントをお願いいたします.

    • 0評価
    • 523PV
    toma_kazusa 退会済みユーザー 1年以上前に ベストアンサー
  • 受付中

    回答
    1

    spark yarn-clientモードで円周率の計算でエラー

    spark環境を構築したのですが、(yarnとhdfsを使用)円周率を計算するというコードが終了しません。(ずっと同じメッセージが1秒置きにながれる 最下部参照)解決方法をご存じの方がいたら教えて頂きたいです。 構成 centos6.5 spark-client spark-master hadoop-yarn-resourcemanage

    • 0評価
    • 678PV
    Day Day 1年以上前に 回答
  • 受付中

    回答
    0

    hadoopを移行に伴うツール選定について

    データ分析のためのツールを新しくしたいと思っています。 sparkとflinkの2つで考えているのですがどちらの方がおススメでしょうか? メリット・デメリットとともに教えていただけますでしょうか?

    • 0評価
    • 388PV
    arly_times arly_times 1年以上前に 質問
  • 受付中

    回答
    1

    eclipseでhadoopを使用するときの問題点について

    今までeclipseにHadoopに関する必要なライブラリを追加してプログラムを実行していたのですが、 実行途中にある問題が起き、conf/mapred-site.xmlの変更をすることになりました。 設定を追加すれば直るはずだったのですが、うまくいきませんでした。 少し調べてみると、気になることがいくつか出てきました。 eclipseは自分のセッティング

    • 0評価
    • 667PV
    kozuchi kozuchi 1年以上前に 回答
  • 受付中

    回答
    1

    Hadoopについて!なんで象さんマークなの?

    お世話になっております。Ezです。 Hadoopについて学習しているのですが、知っている方いましたら下記 2点についてご教示頂けないでしょうか? 1点目 トレードマークについて 2点目 MapReduceについてとてもわかりやすい初心者向けサイト まず、1点目 プログラミング言語界では python へび ruby 宝石

    • 0評価
    • 695PV
    shanxia shanxia 1年以上前に 回答を編集
  • 受付中

    回答
    1

    大規模なストリームデータをリアルタイムで取り扱うwebサービスを作る場合、どのようなインフラ、アプリ...

    普段はruby on rails で開発をしているものです。 Spark等に興味があり、何か、ストリームデータをリアルタイムで取り扱うwebサービスを作って見ようと思ってます。 ※サンプルということもあり、Twitterのデータか、気象データなどを考えております。 大規模にも耐えられるような設計にすることを前提としております。 大規模の定期は私の中では曖

    • 0評価
    • 688PV
    YuusukeNomura YuusukeNomura 1年以上前に コメント
  • 受付中

    回答
    2

    SparkやHadoopを仕事で使われている方へ。

    これから、業務でSparkを導入することになりました。 (詳しい内容は伏せさせてください) そこで、Spark/Hadoopを導入・実務でしている方々へお聞きしたいことがあります。 皆様は、何を参考に学習されましたでしょうか? また、洋書でも良いのでオススメ書籍等、オススメサイト等ありましたら是非教えてください。

    • 0評価
    • 559PV
    lolipop lolipop 1年以上前に 質問を編集
1

タグ情報

  • あなたの順位

    -

  • タグ登録者数

    107

  • 総質問数

    43

  • 今週の質問数

    0

関連するタグ

思考するエンジニアのためのQ&Aサイト「teratail」について詳しく知る