常連

データベース初心者です。
日常的に写真やメールなどをフォルダ・ファイルで管理している者にとって
「データベース」は何が良いのかよく分かりません。

オラクルの[記事](https://www.oracle.com/technetwork/jp/articles/index-155208-ja.html)も読んでみたのですが疑問が却って増えてしまったような…モヤモヤしています。

①「データベース」と「ファイルシステム」が選べるとしたら
「データベース」を選ぶ理由って何なのでしょう。

②ちょっとしたデータの確認・移動・修正・削除などは
マウスでコピペできるフォルダ・ファイルでの管理の方がラクだと思うのですが、
プログラミング言語を打たなければならない「データベース」は面倒だとは思いませんか？

③一方で大掛かりなデータの管理になっても
C++・PHP・VBでもどんな言語でもフォルダ・ファイルにアクセスできるので
「ファイルシステム」が便利だと思うのですが・・・

（上記オラクル社の解説では
「 ファイルを複数のプログラムで共有できないため、プログラムごとにファイルが存在し、
重複するデータが数多く含まれることになってしまいます。」
とありますが、どういった意味なのかよく理解できていません。
.csvファイルや.xlsxファイルを開ける言語もありますし問題無いのでは？
という印象なのですがいかがでしょうか。）

④「データベース」と「ファイルシステム」では
データを管理するメモリの消費やデータを引っぱり出すときのベンチマークなどが違うのでしょうか。
「ファイルシステム」はデータの位置を記録しなければならないが
「データベース」はその必要が無いとも学んだのですが、
データの位置の記録が無いために欲しいデータを参照するのに余計な時間がかかったりしないのでしょうか。

質問が長くなり申し訳ございません。
使用してみての印象や利点など小さなことでもいいので
何かご存知の方がいらっしゃいましたら、よろしくお願いします。

---
追記
皆さまのおかげでデータベースが使われると良い場面が沿革や具体例も含めよく分かりました。
・データの共有状態を想定している。
・データの書き込みエラー・クラッシュが許されない。
・データベースの検索システムに沿うデータである。
以上の場合ではデータベースでの管理が良さそうですね。
使う場面によっては無くてはならないシステムが備わっていると知れてよかったです。

盆栽の水やりと気温や漬物に使われる乳酸菌の温度管理など農業系のデータ管理を想定して
データベースかファイルシステムかという岐路に立っていたのですが（地味なデータの相談ですみません。）
今回、色々な視点から勉強になりました。感謝です。。。

「データベース」と「ファイルシステム」違い

お世話になっております。Ezです。

Hadoopについて学習しているのですが、知っている方いましたら下記 2点についてご教示頂けないでしょうか？

1点目 トレードマークについて
2点目 MapReduceについてとてもわかりやすい初心者向けサイト

***

#まず、1点目
プログラミング言語界では
python へび
ruby 宝石

のような印象があるかと思われます。

Hadoopコンポーネントについても
Hadoop 「象」
HBase 「馬」
Hive 「ハチ」

このような印象が世間一般的になっているのですが（オライリー本の表紙とかもそうですし）なぜHBaseが馬でHiveがハチなのでしょうか？

ちなみにHadoopの象はどうやら、Hadoopを作った方のお子さんのおもちゃの名前が象でHadoopだったかららしいです。


#続いて、2点目
MapReduceを学習しているのですが、いまいちわかりづらいです。
投票用紙の集計なんかを例によく説明されているサイトが多いのですが、いかんせん理解に苦しみます。
（内容は把握できるのですが、それって投票用紙の集計以外使えなくない？という感じなのです）

何か他に良い例のMapReuduceなどを紹介しているサイトなどご存じの方いらっしゃいましたら教えて頂けないでしょうか？もちろん回答者様が考えた例でも構いません。


よろしくお願い致します。
足りない情報等ございましたら追記致します。

Hadoopについて！なんで象さんマークなの？

**Hadoopでhiveを使って問い合わせています。**

selectステートメントを発行する際に、

```lang-sql
SELCT a.id, a.name FROM table_a a WHERE a.id IN (SELECT b.id FROM table_b b);
```

のようなクエリを書いたのですが、エラーが出ます。

何が原因でしょうか？

hiveでクエリエラー（INは使えない？）

すいません。なにかおわかりの方がいらっしゃいましたら教えて下さい。
以下のチュートリアルに従ってhadoopをAWSで構築しようとしています。

[hadoopチュートリアル](https://hadoop.apache.org/docs/r2.8.0/hadoop-project-dist/hadoop-common/SingleCluster.html)

一応、**Pseudo-Distributed Operation**のところまでは動作し、
次に **YARN on a Single Node**のところで以下のようなエラーが出ています。

```
$ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.8.0.jar grep input output 'dfs[a-z.]+'
17/07/15 07:31:03 WARN conf.Configuration: bad conf file: element not <property>
17/07/15 07:31:03 WARN conf.Configuration: bad conf file: element not <property>
17/07/15 07:31:03 WARN conf.Configuration: bad conf file: element not <property>
17/07/15 07:31:03 WARN conf.Configuration: bad conf file: element not <property>
17/07/15 07:31:03 WARN conf.Configuration: bad conf file: element not <property>
17/07/15 07:31:03 WARN conf.Configuration: bad conf file: element not <property>
17/07/15 07:31:03 WARN conf.Configuration: bad conf file: element not <property>
17/07/15 07:31:03 WARN conf.Configuration: bad conf file: element not <property>
17/07/15 07:31:04 WARN conf.Configuration: bad conf file: element not <property>
17/07/15 07:31:04 WARN conf.Configuration: bad conf file: element not <property>
17/07/15 07:31:04 WARN conf.Configuration: bad conf file: element not <property>
17/07/15 07:31:04 WARN conf.Configuration: bad conf file: element not <property>
17/07/15 07:31:04 WARN conf.Configuration: bad conf file: element not <property>
17/07/15 07:31:04 WARN conf.Configuration: bad conf file: element not <property>
17/07/15 07:31:04 WARN conf.Configuration: bad conf file: element not <property>
17/07/15 07:31:04 WARN conf.Configuration: bad conf file: element not <property>
17/07/15 07:31:04 INFO client.RMProxy: Connecting to ResourceManager at /0.0.0.0:8032
17/07/15 07:31:04 WARN ipc.Client: Failed to connect to server: localhost/127.0.0.1:9000: try once and fail.
java.net.ConnectException: 接続を拒否されました
```

切り分けのためにCURLでアクセスしましたが拒否されました。
```
$ curl http://localhost:9000
curl: (7) Failed to connect to localhost port 9000: 接続を拒否されました
```

[YARNエラーの詳細](https://www.savvvy.biz/public/u0001/if9kbu7yrd8nhu8v2lpe)

AWSのセキュリティ設定で外部からのSSHを特定のIPのみに許可しているのも何か関係するのかと思い、
内部LANのTCP(http):9000を追加しましたが変化はありませんでした。


![イメージ説明](4fe23d8851fc39f59030d10a4c3f26cb.png)

ポートの開放が問題なのか？何なのか分からなくなってしまいました。。

AWS EC2でhttp://localhost:9000が通らない

「hdfs dfs」コマンドと「hadoop fs」コマンドの違いがあれば教えて下さい。

HadoopのHDFSコマンドについて

背景
-----------------------------
HTTP REST APIを利用して、HDFSから特定のディレクトリ配下のすべてのファイルを取得したいと考えています。
curlコマンドにてファイルを取得できることはわかりましたが、ディレクトリの取得はできないことが分かりました。
作りこみをすれば取得できるとの記事がありましたが、具体的にどのように作りこみをすればよいかイメージが湧きません。

実現したいこと
-----------------------------
HDFSからディレクトリ配下のすべてのファイルを取得したい

質問
-------------------
処理としては以下のような処理で実現できるのでしょうか。
1、curlコマンドにてディレクトリリストを取得
2　ディレクトリリストをもとに1ディレクトリ単位に配下のファイルリストを取得
3  ファイルリストをもとに1ファイル単位にcurlコマンドにてファイル取得

この場合、かなり複雑な処理なるのではないかと思っています。
別の手段があればそちらで実現したいと思っています。


前提条件
---------
curlコマンドを実行するサーバは、HDFSとは別のLinuxサーバになります。

HDFSからディレクトリを取得したい

これから、業務でSparkを導入することになりました。
（詳しい内容は伏せさせてください）
そこで、Spark/Hadoopを導入・実務でしている方々へお聞きしたいことがあります。
皆様は、何を参考に学習されましたでしょうか？
また、洋書でも良いのでオススメ書籍等、オススメサイト等ありましたら是非教えてください。

SparkやHadoopを仕事で使われている方へ。

お世話になっております。

今月から業務で、Hadoop(hive)を導入することになりました。
そこで、Hadoopの学習を0からすることをなったのですが、
公式ページ以外で参考になる記事、書籍等でオススメはありましたら教えて頂きたいと思っております。
※teratailさん、qiitaさんは利用します。

また、Hadoopに関して役に立つ情報ありましたら共有して頂きたいと思っております。

ちなみに少し古い記事ですが以下の記事は既に参考にしました。
[https://teratail.com/questions/3112](https://teratail.com/questions/3112)
[http://yut.hatenablog.com/entry/20121126/1353899415](http://yut.hatenablog.com/entry/20121126/1353899415)