質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
Hadoop

Apache Hadoopは大規模なデータの分散処理をサポートするJavaソフトウェアフレームワークです。Hadoopを利用すると、数千ノードおよびペタバイト級のアプリケーションデータを処理することができます。

Spark

Spark(Apache Spark)とは、膨大なデータを迅速、柔軟に分散並行処理を行うフレームワークです。分析ツールであるApache Hadoopと比較し、最大で100倍の速度でデータ処理ができるとされています。

Q&A

1回答

3292閲覧

Spark HDFSをフォーマットできない(クラスタ環境)

kuma3

総合スコア60

Hadoop

Apache Hadoopは大規模なデータの分散処理をサポートするJavaソフトウェアフレームワークです。Hadoopを利用すると、数千ノードおよびペタバイト級のアプリケーションデータを処理することができます。

Spark

Spark(Apache Spark)とは、膨大なデータを迅速、柔軟に分散並行処理を行うフレームワークです。分析ツールであるApache Hadoopと比較し、最大で100倍の速度でデータ処理ができるとされています。

0グッド

0クリップ

投稿2016/07/25 12:37

翔泳社の「Apache Spark入門」を元にSparkの学習を進めています。
3.3節でクラスタ環境を構築する手順があるのですが、HDFSをフォーマットする部分で失敗してしまいます。

構成
Amazon Linux
クライアントノード1台
マスターノード1台
ワーカーノード2台(本では4台ですが費用を抑えるため2台にしています)

失敗するコマンドは次のHDFSフォーマットコマンドです。

sudo -u hdfs hdfs namenode -format

そもそもクラスタ環境の時このコマンドをどこのノードで実行したら分からないのですが(クライアントノード?)
どのノードで実行してもFailed to start namenodeと表示されてしまいます。
実行時のログとエラーの詳細は次のようになっています。

16/07/25 11:27:18 INFO namenode.NameNode: STARTUP_MSG: /************************************************************ STARTUP_MSG: Starting NameNode STARTUP_MSG: user = hdfs STARTUP_MSG: host = ip-10-0-7-109.ap-northeast-1.compute.internal/10.0.7.109 STARTUP_MSG: args = [-format] STARTUP_MSG: version = 2.6.0-cdh5.8.0 STARTUP_MSG: classpath = 略 STARTUP_MSG: build = http://github.com/cloudera/hadoop -r 042da8b868a212c843bcbf3594519dd26e816e79; compiled by 'jenkins' on 2016-07-12T23:03Z STARTUP_MSG: java = 1.7.0_101 ************************************************************/ 16/07/25 11:27:18 INFO namenode.NameNode: registered UNIX signal handlers for [TERM, HUP, INT] 16/07/25 11:27:18 INFO namenode.NameNode: createNameNode [-format] Formatting using clusterid: CID-1fbfe103-d271-4488-b751-3cc75b9eeb5e 16/07/25 11:27:20 INFO namenode.FSNamesystem: No KeyProvider found. 16/07/25 11:27:20 INFO namenode.FSNamesystem: fsLock is fair:true 16/07/25 11:27:20 INFO blockmanagement.DatanodeManager: dfs.block.invalidate.limit=1000 16/07/25 11:27:20 INFO blockmanagement.DatanodeManager: dfs.namenode.datanode.registration.ip-hostname-check=true 16/07/25 11:27:20 INFO blockmanagement.BlockManager: dfs.namenode.startup.delay.block.deletion.sec is set to 000:00:00:00.000 16/07/25 11:27:20 INFO blockmanagement.BlockManager: The block deletion will start around 2016 7 25 11:27:20 16/07/25 11:27:20 INFO util.GSet: Computing capacity for map BlocksMap 16/07/25 11:27:20 INFO util.GSet: VM type = 64-bit 16/07/25 11:27:20 INFO util.GSet: 2.0% max memory 966.7 MB = 19.3 MB 16/07/25 11:27:20 INFO util.GSet: capacity = 2^21 = 2097152 entries 16/07/25 11:27:20 INFO blockmanagement.BlockManager: dfs.block.access.token.enable=false 16/07/25 11:27:20 INFO blockmanagement.BlockManager: defaultReplication = 3 16/07/25 11:27:20 INFO blockmanagement.BlockManager: maxReplication = 512 16/07/25 11:27:20 INFO blockmanagement.BlockManager: minReplication = 1 16/07/25 11:27:20 INFO blockmanagement.BlockManager: maxReplicationStreams = 2 16/07/25 11:27:20 INFO blockmanagement.BlockManager: replicationRecheckInterval = 3000 16/07/25 11:27:20 INFO blockmanagement.BlockManager: encryptDataTransfer = false 16/07/25 11:27:20 INFO blockmanagement.BlockManager: maxNumBlocksToLog = 1000 16/07/25 11:27:20 INFO namenode.FSNamesystem: fsOwner = hdfs (auth:SIMPLE) 16/07/25 11:27:20 INFO namenode.FSNamesystem: supergroup = supergroup 16/07/25 11:27:20 INFO namenode.FSNamesystem: isPermissionEnabled = true 16/07/25 11:27:20 INFO namenode.FSNamesystem: HA Enabled: false 16/07/25 11:27:20 INFO namenode.FSNamesystem: Append Enabled: true 16/07/25 11:27:20 INFO util.GSet: Computing capacity for map INodeMap 16/07/25 11:27:20 INFO util.GSet: VM type = 64-bit 16/07/25 11:27:20 INFO util.GSet: 1.0% max memory 966.7 MB = 9.7 MB 16/07/25 11:27:20 INFO util.GSet: capacity = 2^20 = 1048576 entries 16/07/25 11:27:20 INFO namenode.NameNode: Caching file names occuring more than 10 times 16/07/25 11:27:20 INFO util.GSet: Computing capacity for map cachedBlocks 16/07/25 11:27:20 INFO util.GSet: VM type = 64-bit 16/07/25 11:27:20 INFO util.GSet: 0.25% max memory 966.7 MB = 2.4 MB 16/07/25 11:27:20 INFO util.GSet: capacity = 2^18 = 262144 entries 16/07/25 11:27:20 INFO namenode.FSNamesystem: dfs.namenode.safemode.threshold-pct = 0.9990000128746033 16/07/25 11:27:20 INFO namenode.FSNamesystem: dfs.namenode.safemode.min.datanodes = 0 16/07/25 11:27:20 INFO namenode.FSNamesystem: dfs.namenode.safemode.extension = 30000 16/07/25 11:27:20 INFO metrics.TopMetrics: NNTop conf: dfs.namenode.top.window.num.buckets = 10 16/07/25 11:27:20 INFO metrics.TopMetrics: NNTop conf: dfs.namenode.top.num.users = 10 16/07/25 11:27:20 INFO metrics.TopMetrics: NNTop conf: dfs.namenode.top.windows.minutes = 1,5,25 16/07/25 11:27:20 INFO namenode.FSNamesystem: Retry cache on namenode is enabled 16/07/25 11:27:20 INFO namenode.FSNamesystem: Retry cache will use 0.03 of total heap and retry cache entry expiry time is 600000 millis 16/07/25 11:27:20 INFO util.GSet: Computing capacity for map NameNodeRetryCache 16/07/25 11:27:20 INFO util.GSet: VM type = 64-bit 16/07/25 11:27:20 INFO util.GSet: 0.029999999329447746% max memory 966.7 MB = 297.0 KB 16/07/25 11:27:20 INFO util.GSet: capacity = 2^15 = 32768 entries 16/07/25 11:27:20 INFO namenode.NNConf: ACLs enabled? false 16/07/25 11:27:20 INFO namenode.NNConf: XAttrs enabled? true 16/07/25 11:27:20 INFO namenode.NNConf: Maximum size of an xattr: 16384 16/07/25 11:27:20 ERROR namenode.NameNode: Failed to start namenode. java.lang.IllegalArgumentException: URI has an authority component at java.io.File.<init>(File.java:423) at org.apache.hadoop.hdfs.server.namenode.NNStorage.getStorageDirectory(NNStorage.java:329) at org.apache.hadoop.hdfs.server.namenode.FSEditLog.initJournals(FSEditLog.java:270) at org.apache.hadoop.hdfs.server.namenode.FSEditLog.initJournalsForWrite(FSEditLog.java:241) at org.apache.hadoop.hdfs.server.namenode.NameNode.format(NameNode.java:1040) at org.apache.hadoop.hdfs.server.namenode.NameNode.createNameNode(NameNode.java:1484) at org.apache.hadoop.hdfs.server.namenode.NameNode.main(NameNode.java:1611) 16/07/25 11:27:20 INFO util.ExitUtil: Exiting with status 1 16/07/25 11:27:20 INFO namenode.NameNode: SHUTDOWN_MSG: /************************************************************ SHUTDOWN_MSG: Shutting down NameNode at ip-10-0-7-109.ap-northeast-1.compute.internal/10.0.7.109 ************************************************************/

全てのノードで/etc/hadoop/conf以下にcore-site.xml, hdfs-site.xml, yarn-site.xmlを配置しておりそれぞれ次のように設定しています。
core-site.xml

<?xml version="1.0" encoding="UTF-8"?> <?xml-stylesheet type="text/xsl" href="configuration.xsl"?> <configuration> <property> <name>fs.defaultFS</name> <value>hdfs://spark-master:8020</value> </property> <property> <name>hadoop.tmp.dir</name> <value>/hadoop/tmp</value> </property> </configuration>

hdfs-site.xml

<?xml version="1.0" encoding="UTF-8"?> <?xml-stylesheet type="text/xsl" href="configuration.xsl"?> <configuration> <property> <name>dfs.namenode.name.dir</name> <value>file://hadoop/hdfs/name</value> </property> <property> <name>dfs.datanode.data.dir</name> <value>file://hadoop/hdfs/data</value> </property> </configuration>

yarn-site.xml

<?xml version="1.0"?> <configuration> <!-- Site specific YARN configuration properties --> <property> <name>yarn.resourcemanager.hostname</name> <value>spark-master</value> </property> <property> <name>yarn.nodemanager.log-dirs</name> <value>file://hadoop/yarn/node-manager/logs</value> </property> <property> <name>yarn.nodemanager.local-dirs</name> <value>file://hadoop/yarn/node-manager/local</value> </property> </configuration>

hdfs-site.xml, yarn-site.xmlはそれぞれ次のように設定しています。
また、/etc/hostsはそれぞれのノードで次のように設定しています。
クライアント

127.0.0.1 localhost localhost.localdomain 127.0.0.1 spark-client 10.0.7.210 spark-master 10.0.7.143 spark-worker0 10.0.7.53 spark-worker1

マスター

127.0.0.1 localhost localhost.localdomain 127.0.0.1 spark-master 10.0.7.109 spark-client 10.0.7.143 spark-worker0 10.0.7.53 spark-worker1

ワーカー0

127.0.0.1 localhost localhost.localdomain 10.0.7.109 spark-client 10.0.7.210 spark-master 127.0.0.1 spark-worker0

不足している情報等ございましたらご指摘下さい。
アドバイスいただけると助かります。
よろしくお願いします。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

Amazon LinuxもSparkも使ったことがないですがHDFSの部分だったので。

core-site.xml, hdfs-site.xml にいくつかパスを記述していますが、そのパスが存在するか確認してください。
なければmkdirで作ります。(sudo mkdir -p /hadoop/hdfs/name 等)
続いて、そのディレクトリの所有者を確認してください。
ユーザhdfsでなければ所有者を変更します。(sudo chown -R hdfs:hdfs /hadoop/hdfs/name 等)

これでHDFSフォーマットを再度試してください。
HDFSフォーマットコマンドは基本的にマスターノード(NameNodeのサーバ)で実行します。

投稿2016/08/19 13:14

G05ST

総合スコア12

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

まだベストアンサーが選ばれていません

会員登録して回答してみよう

アカウントをお持ちの方は

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問