「データベース」と「ファイルシステム」違い

Question

データベース初心者です。
日常的に写真やメールなどをフォルダ・ファイルで管理している者にとって
「データベース」は何が良いのかよく分かりません。

オラクルの[記事](https://www.oracle.com/technetwork/jp/articles/index-155208-ja.html)も読んでみたのですが疑問が却って増えてしまったような…モヤモヤしています。

①「データベース」と「ファイルシステム」が選べるとしたら
「データベース」を選ぶ理由って何なのでしょう。

②ちょっとしたデータの確認・移動・修正・削除などは
マウスでコピペできるフォルダ・ファイルでの管理の方がラクだと思うのですが、
プログラミング言語を打たなければならない「データベース」は面倒だとは思いませんか？

③一方で大掛かりなデータの管理になっても
C++・PHP・VBでもどんな言語でもフォルダ・ファイルにアクセスできるので
「ファイルシステム」が便利だと思うのですが・・・

（上記オラクル社の解説では
「 ファイルを複数のプログラムで共有できないため、プログラムごとにファイルが存在し、
重複するデータが数多く含まれることになってしまいます。」
とありますが、どういった意味なのかよく理解できていません。
.csvファイルや.xlsxファイルを開ける言語もありますし問題無いのでは？
という印象なのですがいかがでしょうか。）

④「データベース」と「ファイルシステム」では
データを管理するメモリの消費やデータを引っぱり出すときのベンチマークなどが違うのでしょうか。
「ファイルシステム」はデータの位置を記録しなければならないが
「データベース」はその必要が無いとも学んだのですが、
データの位置の記録が無いために欲しいデータを参照するのに余計な時間がかかったりしないのでしょうか。

質問が長くなり申し訳ございません。
使用してみての印象や利点など小さなことでもいいので
何かご存知の方がいらっしゃいましたら、よろしくお願いします。

---
追記
皆さまのおかげでデータベースが使われると良い場面が沿革や具体例も含めよく分かりました。
・データの共有状態を想定している。
・データの書き込みエラー・クラッシュが許されない。
・データベースの検索システムに沿うデータである。
以上の場合ではデータベースでの管理が良さそうですね。
使う場面によっては無くてはならないシステムが備わっていると知れてよかったです。

盆栽の水やりと気温や漬物に使われる乳酸菌の温度管理など農業系のデータ管理を想定して
データベースかファイルシステムかという岐路に立っていたのですが（地味なデータの相談ですみません。）
今回、色々な視点から勉強になりました。感謝です。。。

Accepted Answer

単独の（孤立した）データを保存するのであれば、DB管理システム(DBMS)の利点は耐障害性の機能があるくらいなので、バックアップをしっかり取っておけば十分です。
高速の検索が必要なら、適宜、索引ファイルを作っておけばいい。

DBMSには、複数のデータがが関連性を持って更新されるときに、中途半端な状態、矛盾した状態にならないように整合性を保証する仕組みがあります。
参考： [ACID (コンピュータ科学) - Wikipedia](https://ja.wikipedia.org/wiki/ACID_(%E3%82%B3%E3%83%B3%E3%83%94%E3%83%A5%E3%83%BC%E3%82%BF%E7%A7%91%E5%AD%A6))
例えば、サーバーがクラッシュ、ディスク障害、アプリケーション異常終了、などの際にも、それぞれの障害回復後には、銀行の送金処理なら、口座残高が両方の更新されているか、両方とも更新されていないかのどちらかになる事が保証されます。片方の口座残高のみ更新されて銀行が儲かったり、お客さんが儲かったりすることはないです。


あとは、高速にアクセスを行うための様々な仕組みとかですかね。

なお、上記ACIDの四つを保証するとGoogle検索エンジンなど超大規模なデータベースの場合、性能が出ないので、近年、それを弱めたDBMSもあります。
参考：[CAP定理 - Wikipedia](https://ja.wikipedia.org/wiki/CAP%E5%AE%9A%E7%90%86)

Answer

質問の「データベース」はDBMSの事を指していると解釈しました。

ファイルも広義的にはデータベース(Data Base)に含まれます。
**データベース**(Data Base)を**管理するシステム**(Management System)が「データベース管理システム(DBMS)」です。※DBMSも根本的にはファイルを扱っています。

DBMSが生まれる前は、ファイルへ直接I/Oするしかありません。
複数のプロセスが同時に同じファイルにアクセスするような場合の排他制御や、複数の情報を組み合わせて取り出す事などは自前で実装するしかありませんでした。

そのような背景から生まれた、DBMSの歴史を見れば、自ずとメリットが理解できるのではないでしょうか。

[データベースの歴史とその最新技術](http://www.nowhere.co.jp/blog/archives/20110511-180934.html)
> データベースが登場する前は、データ管理にはファイルが使われていましたが、ファイルはアプリケーションに依存するという問題があり、特にデータ量が大きくなると扱いにくくなります。
> そのため、データ管理を独立したソフトウェアとして扱い、アプリケーションから切り離すことにし、そのデータ管理をするソフトウェアはデータベース管理システム (DBMS) 、このシステムに管理されるデータの集まりはデータベースと呼ばれることになり、大規模化した情報の管理手段として登場しました。

[データベースの歴史（概要）](http://www.kogures.com/hitoshi/history/db-gaiyou/index.html)

※大規模なシステムだとデータ管理は煩雑です。
一方、システムの設定情報などは煩雑な管理を必要としないので、iniファイルのようなものは今でも使用されています。
用途によって使い分けられているというのが、決定的な違いでしょう。

Answer

データベースをどう定義するかによって回答も変わってくると思いますが、ここでは SQL でアクセスするリレーショナルデータベースをイメージされているのではないかと思いますので、その前提で回答します。

> ①「データベース」と「ファイルシステム」が選べるとしたら
「データベース」を選ぶ理由って何なのでしょう。

リレーショナルデータベースはデータを集合として扱い、集合演算ができるよう設計されています。
一方ファイルシステムは木構造です。
それぞれに活躍する場面は違います。

例えば、teratail は質問を言語による浅い木構造とタグの両方で検索できるようになっていますが、木構造の方は使っていますか？ 複数のタグによる積集合やキーワード検索の方をよく使うのではありませんか？
このような検索方法ではリレーショナルデータベースの方が有利です。

> ②ちょっとしたデータの確認・移動・修正・削除などは
マウスでコピペできるフォルダ・ファイルでの管理の方がラクだと思うのですが、
プログラミング言語を打たなければならない「データベース」は面倒だとは思いませんか？

木構造の方が楽な場合はあります。しかし、すべてではありません。
確認・移動・修正・削除を複数のデータに行う場合、エクスプローラーなら何度も何度もフォルダやファイルを選択しなければならない場面でも、集合として扱えば一度で済む場合があります。

> ③一方で大掛かりなデータの管理になっても
C++・PHP・VBでもどんな言語でもフォルダ・ファイルにアクセスできるので
「ファイルシステム」が便利だと思うのですが・・・

Google の集めた大規模なデータをファイルとして保存してパスのみで検索しなければならないとすれば、検索は相当に時間がかかるでしょう。
データを事前に分析し、インデックスを付けてアクセスしやすくしなければなりません。データ管理を行うのがデータベース管理システムの役割です。

> ④「データベース」と「ファイルシステム」では
データを管理するメモリの消費やデータを引っぱり出すときのベンチマークなどが違うのでしょうか。
「ファイルシステム」はデータの位置を記録しなければならないが
「データベース」はその必要が無いとも学んだのですが、
データの位置の記録が無いために欲しいデータを参照するのに余計な時間がかかったりしないのでしょうか。

場合によります。

#まとめ

どちらにも得手不得手があるので、両方とも広く使われています。

Answer

個人的にRDBの意義がわかりやすくまとまっていると思っている記事を紹介させていただきます。
[データベースについてのそもそも論(漢のコンピュータ道)](http://nippondanji.blogspot.com/2016/10/blog-post.html)

Answer

A銀行B支店のCさんの口座からDさんの口座にある金額を口座振替する処理を例に考えてみましょう
Cさんの口座から振替える残高と振替手数料があるかを確認して、振替金額と手数料を差し引き、Dさんの口座に振込み、手数料を銀行の利益として処理します。
この時、途中で何らからのエラーが起きて処理が途中で止まってしまっては困ります。Cさんの口座から振替金額が減ったのにDさんの口座に振込まれていなかったら銀行の信用はズタズタです。Cさんの口座から振替金額が減ったのを取り消して(リカバリ)、もういちど振替処理をやり直すということを自動的にできるのがデータベース。(かなり端折って書いています。) ファイルシステムでこれを実現するのはとっても大変です。

給料振込には会社の口座から各社員の口座へ振り込む処理が行われます。同じタイミングで会社が買った商品の支払い処理が実行されてもそれぞれの処理がきちんと行われなければなりません。1,000万円の銀行残高がCさんの給料50万円、Dさんの給料60万円、商品代金100万円を差し引く処理を[データベースでは排他制御]して実行します。 ファイルシステムでもこれを実現するのはとっても大変です。

Answer

オラクルなどのデータベースベンダが使う「データベース」には、「データベース管理システム」（DBMS、RDBMS）を含みます。

つまりデータベースは「管理してくれるもの」がいるのです。

ファイルシステムで管理する場合、その管理方法（どんな条件でフォルダ分けしているか）を知らないと、探すことも整理することもできません。
一方でデータベースの場合、管理方法は「管理してくれるもの」、すなわち RDBMS が知っています。ですから調べる時には RDBMS に対して「こんな条件で探して」と問い合わせるだけです。データが実際にどのように保存され整理されているかを知る必要はありません。データを追加・更新する時も、RDBMS が適切に整理し直してくれるのです。

写真の整理であれば確かにデータベースなんて必要ない、と思うかも知れません。ですが例えば写真にタグを付ける（撮影日、撮影時刻、場所、被写体、撮影時の条件etc）と、そのタグで検索する場合にはファイル・フォルダ形式では簡単に破綻するでしょうね。

関連した質問