Hadoop

Apache Hadoopは大規模なデータの分散処理をサポートするJavaソフトウェアフレームワークです。Hadoopを利用すると、数千ノードおよびペタバイト級のアプリケーションデータを処理することができます。

RSS
  • 解決済

    回答
    1

    Wikipediaの公開している統計データのデータ前処理に関して

    前提・実現したいこと Wikipediaの公開している統計データを用いてデータ分析をしようとしています。 大規模データなのでHadoopで単語の出てきた回数を数えて降順にソートしようとしています。 データをダウンロードするサイト 発生している問題・エラーメッセージ ClickstreamというWebページの訪問者が渡り歩いた軌跡データのヘッダー部

    • 0評価
    • 126PV
    harunouta harunouta 1ヶ月前に コメント
  • 解決済

    回答
    1

    Hive:テキストファイルからテーブルを生成する方法について

    Hadoop(HDFS領域)環境です。 タブ区切りのテキストファイル(.txt)が存在するとします。 そのデータをテーブルにしたい場合はどのようにすればよいでしょうか。 まずは該当のカラムを持つテーブルをCREATE TABLEしてあげる必要があるとは思うのですが、その後にファイルを読み込ませる方法がわ

    • 0評価
    • 79PV
    Orlofsky Orlofsky 1ヶ月前に ベストアンサー
  • 解決済

    回答
    1

    Hive:作成されたテーブルのクエリ確認方法について

    最近業務上でHadoop,Hiveを使い始めたのですが元々SQLの知識に乏しく、 わからないことだらけです…出来る限り調べながらご質問しておりますが、 トンチンカンな質問をしてしまっていたら大変申し訳ないです。 前提・実現したいこと 現在Hadoop上のhiveを用いて、様々なテーブルからデータを抽出しております。 hiveの機能についての質問ですが、

    • 0評価
    • 106PV
    azs azs 2ヶ月前に コメント
  • 解決済

    回答
    1

    hiveの実行でエラー

    こちらの記事を参考にHadoop+hiveを試してみようと思いました。 https://qiita.com/genzouw/items/59705fcfd4af1c5369e1 環境はCentOS+Vagrantです。 最初、そのままではうまくいかず環境変数やHBaseを入れ直したりはしまして、 hiveコマンドを試したところ、 $ hive E

    • 0評価
    • 153PV
    xxyyxx xxyyxx 3ヶ月前に ベストアンサー
  • 受付中

    回答
    0

    hiveで処理するときの並列数、できるファイルの数はどこでわかる

    hiveで 処理するときの並列数や できるファイルの数はどこでわかりますか? また、メモリ不足で落ちてしまうとき、 どこをいじればよいでしょうか?

    • 0評価
    • 97PV
    teratailが3ヶ月前に アップデート
  • 受付中

    回答
    0

    Sqoop オプション設定

    下記のサイト閲覧時に、なぜ下記の様にデータ変換されるのかがすっきりしません。 ご教示して頂ければ幸いです。 <疑問箇所> ・CSVファイルのエクスポート (IN) A002,"aa,bb\"cc",456 (OUT)| A002 | aa,bb"cc | 456 | <サイトURL> http://www.ne.jp/asahi/hishida

    • 0評価
    • 87PV
    teratailが3ヶ月前に アップデート
  • 受付中

    回答
    0

    hiveでhdfs上のpyファイルを使えるようにするには

    hiveにて自作のスクリプトを利用した処理をいれたいです。 通常はadd fileで ローカルから ファイルをアップしてそのスクリプトを叩くのですが、スクリプトファイル群が重いので、 これらをhdfs上に起き、 それをtransformで使いたいです。 これは具体的にどうやってできますでしょうか?

    • 0評価
    • 128PV
    teratailが4ヶ月前に アップデート
  • 解決済

    回答
    1

    【Hive】トリガー機能について

    HiveでSQLにあるトリガー機能が使いたいと思います。 特定のテーブルにデータがINSERTされたことをきっかけに、 VIEWを作りたいのですが、その方法としてトリガー機能が使えればと考えました。 「hive trigger」などで検索してみましたが、 実装方法のサンプルページなどはヒットせず、 https://issues.apache.org/ji

    • 0評価
    • 776PV
    chokojori chokojori 8ヶ月前に コメント
  • 解決済

    回答
    1

    AWS EC2でhttp://localhost:9000が通らない

    すいません。なにかおわかりの方がいらっしゃいましたら教えて下さい。 以下のチュートリアルに従ってhadoopをAWSで構築しようとしています。 hadoopチュートリアル 一応、Pseudo-Distributed Operationのところまでは動作し、 次に YARN on a Single Nodeのところで以下のようなエラーが出ています。

    • 0評価
    • 919PV
    ko.izawa ko.izawa 1年以上前に ベストアンサー
  • 解決済

    回答
    1

    物理的に分散しているサーバー上のデータを処理するためにHadoopは適しているか?

    前提・実現したいこと 現在,研究で物理的に世界中に分散しているサーバー上のデータにアクセスし, あるバッチ処理を行なわなければならなくなりました. そこでなんとなく調べたところHadoopが使えるのではないかと感じました. しかし知識不足なためイマイチ実現できそうかどうかがわかりません. ここで質問なのですが,ある程度ファイルの配置や設定等をこ

    • 0評価
    • 298PV
    gainings gainings 1年以上前に コメント
  • 受付中

    回答
    0

    storm-kafka の MultiScheme の作り方がわかりません

    KafkaからStormにデータを流すものを作りたいのですが、Storm側でKafkaから送られてきたデータをDeserializeする方法がわからなかったため、質問させて頂きました。 ここを参考に、KafkaSpoutを作成し、kafka-console-producer から送られてきたデータを受取り、StringScheme()を使って Kafk

    • 0評価
    • 437PV
    teratailが1年以上前に アップデート
  • 受付中

    回答
    0

    グラフ構造の分散処理について

    グラフ構造のデータをインプットとした分散処理はいろんなシステムが紹介されていると思います。もともと分散処理を提供しているようなneo4jなどのデータベースも存在すると思います。ここで疑問なのですが グラフ構造に対して分散処理をする利点とはなんなのでしょうか?例えばhadoopやgiraphなどでは分散処理をするフレームワークとして知られます。 分散と

    • 0評価
    • 543PV
    teratailが1年以上前に アップデート
  • 解決済

    回答
    1

    kafkaの仕組みについて

    apache kafkaについて質問です。apache kafkaではpubの送信をbrokerがsubscribeしているコンシューマに届ける必要があります。この設定はどのように行っているのでしょうか?調べても具体的な話が載っていなかったのですが例えばbrokerにコンシューマの購読情報を設定するのだと想像しますがそもそもこの設定はどのようにほどこすのでし

    • 0評価
    • 647PV
    kkkmokotan kkkmokotan 1年以上前に ベストアンサー
  • 受付中

    回答
    0

    spark-submit --files オプションについて

    spark-submitの起動オプションにある--filesに関する質問です。 オプションの説明に、各executorのワークディレクトリーに配布されるファイルを指定する。 とありますが、--files /tmp/text/a.txtのように指定した場合、 /tmp/text/のディレクトリが各executorに存在していなければならない認識です。

    • 0評価
    • 643PV
    teratailが1年以上前に アップデート
  • 受付中

    回答
    0

    Sparkをyarn-clusterモードで実行中,IOExceptionが発生しない

    Sparkをyarn-clusterモードで実行中,ファイルにアクセスする箇所があり, アクセス権限がない場合(パーミッションエラー),IOExceptionを発生させるようにしているのですが, 権限がなくアクセスできないにもかかわらずyarn-clusterのタスク実行結果はSUCCESS(IOException発生せず)となります。 アクセス権

    • 0評価
    • 676PV
    teratailが1年以上前に アップデート
  • 受付中

    回答
    2

    Hadoopでお仕事をされている方々に質問です。

    お世話になっております。 今月から業務で、Hadoop(hive)を導入することになりました。 そこで、Hadoopの学習を0からすることをなったのですが、 公式ページ以外で参考になる記事、書籍等でオススメはありましたら教えて頂きたいと思っております。 ※teratailさん、qiitaさんは利用します。 また、Hadoopに関して役に立つ情報ありました

    • 0評価
    • 1108PV
    zairu_1984 zairu_1984 1年以上前に 回答
  • 受付中

    回答
    0

    spark-submitを連続実行で処理が中断される

    Apache Sparkにてspark-submitで複数回コマンドを発行しようとすると初回に実行した方が強制終了となってしまいます。 $SPARK_HOME/bin/spark-submit --master "local[*]" --class example.Example example.jar 同時もしくは初回の実行を待ち完了したあとで

    • 0評価
    • 737PV
    teratailが1年以上前に アップデート
  • 受付中

    回答
    1

    HadoopのHDFSコマンドについて

    「hdfs dfs」コマンドと「hadoop fs」コマンドの違いがあれば教えて下さい。

    • 0評価
    • 1499PV
    G05ST G05ST 1年以上前に 回答
  • 受付中

    回答
    1

    Spark HDFSをフォーマットできない(クラスタ環境)

    翔泳社の「Apache Spark入門」を元にSparkの学習を進めています。 3.3節でクラスタ環境を構築する手順があるのですが、HDFSをフォーマットする部分で失敗してしまいます。 構成 Amazon Linux クライアントノード1台 マスターノード1台 ワーカーノード2台(本では4台ですが費用を抑えるため2台にしています) 失敗

    • 0評価
    • 856PV
    G05ST G05ST 1年以上前に 回答
  • 解決済

    回答
    1

    SparkのRDDの処理について

    現在,SparkのRDDについて学んでいます。 しかし,RDD変換部分の処理についていまひとつ理解できておりません。 (RDDの中にリストやタプル2,タプル3が入っているときのmapやfilter処理の等) 上記についてわかりやすい文献またはサイトがありましたらご紹介下さい。 できればJavaで例題がかかれているとうれしいです。

    • 0評価
    • 638PV
    Ody Ody 1年以上前に ベストアンサー
1

タグ情報

  • あなたの順位

    -

  • タグ登録者数

    120

  • 総質問数

    51

  • 今週の質問数

    0

関連するタグ

Hadoopタグのよく見られている質問

思考するエンジニアのためのQ&Aサイト「teratail」について詳しく知る