Hadoop

Apache Hadoopは大規模なデータの分散処理をサポートするJavaソフトウェアフレームワークです。Hadoopを利用すると、数千ノードおよびペタバイト級のアプリケーションデータを処理することができます。

RSS

  • 受付中

    回答
    0

    グラフ構造の分散処理について

    グラフ構造のデータをインプットとした分散処理はいろんなシステムが紹介されていると思います。もともと分散処理を提供しているようなneo4jなどのデータベースも存在すると思います。ここで疑問なのですが グラフ構造に対して分散処理をする利点とはなんなのでしょうか?例えばhadoopやgiraphなどでは分散処理をするフレームワークとして知られます。 分散と

    • 0評価
    • 52PV
    kkkmokotan kkkmokotan 1ヶ月前
  • 受付中

    回答
    0

    HadoopのRMContainerAllocator.java内でパーティション容量を取得したい

    hadoop2.7.2のソースコードRMContainerAllocator.java内で、特定ノードのパーティション容量リストを取得したいのですが、どのようなコードで取得できますか? よろしくお願いします。

    • 0評価
    • 24PV
    wine wine 1ヶ月前
  • 解決済

    回答
    1

    kafkaの仕組みについて

    apache kafkaについて質問です。apache kafkaではpubの送信をbrokerがsubscribeしているコンシューマに届ける必要があります。この設定はどのように行っているのでしょうか?調べても具体的な話が載っていなかったのですが例えばbrokerにコンシューマの購読情報を設定するのだと想像しますがそもそもこの設定はどのようにほどこすのでし

    • 0評価
    • 33PV
    kkkmokotan kkkmokotan 1ヶ月前
  • 受付中

    回答
    0

    spark-submit --files オプションについて

    spark-submitの起動オプションにある--filesに関する質問です。 オプションの説明に、各executorのワークディレクトリーに配布されるファイルを指定する。 とありますが、--files /tmp/text/a.txtのように指定した場合、 /tmp/text/のディレクトリが各executorに存在していなければならない認識です。

    • 0評価
    • 64PV
    uruban uruban 2ヶ月前
  • 受付中

    回答
    0

    Sparkをyarn-clusterモードで実行中,IOExceptionが発生しない

    Sparkをyarn-clusterモードで実行中,ファイルにアクセスする箇所があり, アクセス権限がない場合(パーミッションエラー),IOExceptionを発生させるようにしているのですが, 権限がなくアクセスできないにもかかわらずyarn-clusterのタスク実行結果はSUCCESS(IOException発生せず)となります。 アクセス権

    • 0評価
    • 92PV
    Ody Ody 2ヶ月前
  • 受付中

    回答
    0

    spark-submitを連続実行で処理が中断される

    Apache Sparkにてspark-submitで複数回コマンドを発行しようとすると初回に実行した方が強制終了となってしまいます。 $SPARK_HOME/bin/spark-submit --master "local[*]" --class example.Example example.jar 同時もしくは初回の実行を待ち完了したあとで

    • 0評価
    • 121PV
    tera1111 tera1111 3ヶ月前
  • 解決済

    回答
    1

    SparkのRDDの処理について

    現在,SparkのRDDについて学んでいます。 しかし,RDD変換部分の処理についていまひとつ理解できておりません。 (RDDの中にリストやタプル2,タプル3が入っているときのmapやfilter処理の等) 上記についてわかりやすい文献またはサイトがありましたらご紹介下さい。 できればJavaで例題がかかれているとうれしいです。

    • 0評価
    • 118PV
    Ody Ody 4ヶ月前
  • 受付中

    回答
    0

    Hadoopでのスクリプト実行環境で明確にしないと設計できないものについて悩んでいます。

    Amazon EMRを利用したシステムの設計を行うのですが、以下を明確にしないと設計できないものについて悩んでいます。 以下の内容へのアドバイス及び、ここも気を付けた方が良いよ!という点があればアドバイスをお願いします。 EMRクラスター(Hadoop)をローカルで実行するためにCDHかHDPか(基準:どちらが検証しやすいか) EMRでど

    • 0評価
    • 102PV
    KaiheiSameshima KaiheiSameshima 4ヶ月前
  • 受付中

    回答
    1

    Spark HDFSをフォーマットできない(クラスタ環境)

    翔泳社の「Apache Spark入門」を元にSparkの学習を進めています。 3.3節でクラスタ環境を構築する手順があるのですが、HDFSをフォーマットする部分で失敗してしまいます。 構成 Amazon Linux クライアントノード1台 マスターノード1台 ワーカーノード2台(本では4台ですが費用を抑えるため2台にしています) 失敗

    • 0評価
    • 135PV
    kuma3 kuma3 4ヶ月前
  • 受付中

    回答
    0

    Hadoop MapReduceエラー No such file or directory

    Hadoopを勉強中でHadoopストリーミングをテストするためrubyで書いたmapperとreducerが正しく動作するかコマンドラインからMapReduceを実行してみました。 しかし、mapper.rbがないと下記のようにエラーが表示されて正しくジョブが実行されません。 dir/usercache/Kuma/appcache/applicat

    • 0評価
    • 115PV
    kuma3 kuma3 4ヶ月前
  • 解決済

    回答
    2

    GPUとCPUの並列処理について

    GPUとCPUのマシンを複数台もちいてHadoopのような並列分散処理を実行さようと考えています. このようなシステムを組むことは可能なのでしょうか? 具体的な手法や開発環境を知っているかたがおられたらコメントをお願いいたします.

    • 0評価
    • 271PV
    toma_kazusa 退会済みユーザー 7ヶ月前
  • 受付中

    回答
    1

    spark yarn-clientモードで円周率の計算でエラー

    spark環境を構築したのですが、(yarnとhdfsを使用)円周率を計算するというコードが終了しません。(ずっと同じメッセージが1秒置きにながれる 最下部参照)解決方法をご存じの方がいたら教えて頂きたいです。 構成 centos6.5 spark-client spark-master hadoop-yarn-resourcemanage

    • 0評価
    • 375PV
    Day Day 9ヶ月前
  • 受付中

    回答
    0

    hadoopを移行に伴うツール選定について

    データ分析のためのツールを新しくしたいと思っています。 sparkとflinkの2つで考えているのですがどちらの方がおススメでしょうか? メリット・デメリットとともに教えていただけますでしょうか?

    • 0評価
    • 213PV
    arly_times arly_times 9ヶ月前
  • 受付中

    回答
    1

    Hadoopについて!なんで象さんマークなの?

    お世話になっております。Ezです。 Hadoopについて学習しているのですが、知っている方いましたら下記 2点についてご教示頂けないでしょうか? 1点目 トレードマークについて 2点目 MapReduceについてとてもわかりやすい初心者向けサイト まず、1点目 プログラミング言語界では python へび ruby 宝石

    • 0評価
    • 396PV
    EzrealTrueshot EzrealTrueshot 9ヶ月前
  • 受付中

    回答
    1

    大規模なストリームデータをリアルタイムで取り扱うwebサービスを作る場合、どのようなインフラ、アプリ...

    普段はruby on rails で開発をしているものです。 Spark等に興味があり、何か、ストリームデータをリアルタイムで取り扱うwebサービスを作って見ようと思ってます。 ※サンプルということもあり、Twitterのデータか、気象データなどを考えております。 大規模にも耐えられるような設計にすることを前提としております。 大規模の定期は私の中では曖

    • 0評価
    • 484PV
    qaz3330 qaz3330 1年以上前
  • 受付中

    回答
    2

    SparkやHadoopを仕事で使われている方へ。

    これから、業務でSparkを導入することになりました。 (詳しい内容は伏せさせてください) そこで、Spark/Hadoopを導入・実務でしている方々へお聞きしたいことがあります。 皆様は、何を参考に学習されましたでしょうか? また、洋書でも良いのでオススメ書籍等、オススメサイト等ありましたら是非教えてください。

    • 0評価
    • 404PV
    lolipop lolipop 1年以上前
  • 受付中

    回答
    2

    hiveのログの見方が分かりません。

    hiveの実行ログを見ており、下記のように出力がされています。 ============================== 2015-10-27 15:43:07,528 Stage-2 map = 0%, reduce = 0% 2015-10-27 15:44:08,308 Stage-2 map = 0%, reduce = 0%, Cumula

    • 0評価
    • 372PV
    ゲストユーザー 1年以上前
  • 解決済

    回答
    1

    子集合をもつ集合間の類似度

    ベストアンサーはつけましたが、その他アイデアや情報等ありましたら回答お宜しくお願いします aからzまでの文字列をmodel_1からmodel_Nまでのルールに基づいて分類した結果を 下記のようにあらわした時、各分類手法の類似度を求める方法ってあるでしょうか? 各子集合の類似度を、総当たり&Jaccard指数を用いて求めて合計が最大のものを類似度として計

    • 0評価
    • 377PV
    fsoe fsoe 1年以上前
  • 受付中

    回答
    2

    Hadoopでお仕事をされている方々に質問です。

    お世話になっております。 今月から業務で、Hadoop(hive)を導入することになりました。 そこで、Hadoopの学習を0からすることをなったのですが、 公式ページ以外で参考になる記事、書籍等でオススメはありましたら教えて頂きたいと思っております。 ※teratailさん、qiitaさんは利用します。 また、Hadoopに関して役に立つ情報ありました

    • 0評価
    • 574PV
    lolipop lolipop 1年以上前
  • 受付中

    回答
    1

    HadoopのHDFSコマンドについて

    「hdfs dfs」コマンドと「hadoop fs」コマンドの違いがあれば教えて下さい。

    • 0評価
    • 412PV
    kidss kidss 1年以上前
1

もっと見る

タグ情報

  • あなたの順位

    -

  • タグ登録者数

    98

  • 総質問数

    42

  • 今週の質問数

    0

関連するタグ

思考するエンジニアのためのQ&Aサイト「teratail」について詳しく知る