質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

88.03%

HDD障害発生時の冗長化されているRAIDの一般的な挙動について

解決済

回答 1

投稿 編集

  • 評価
  • クリップ 3
  • VIEW 2,107

score 112

RAID1や5のような冗長化されているRAIDについて、HDD障害発生時の一般的な挙動に関しての質問になります。
通常、HDDに障害が発生すると、障害の発生したHDDを除いた(もしくは障害の発生したセクタを除いた)HDDで稼働すると思います。(この時、RAIDは修復を試みるかもしれまんが・・・)。
そもそもHDDが故障して一切動作しない場合は分かるのですが、
微妙なラインのHDD障害時にどこまでをRAIDが障害発生と認識するのかを
知りたいです。

 A.代替えセクタが無い状況下での不良セクタ発生時(物理的な障害)
 B.不良セクタ発生時(物理的な障害)
 C.メタ情報破壊時(論理的な障害)
 D.etc・・・

※Cのような論理的な障害も認識する場合、修復を試みてくれるものなのでしょうか?
※微妙なラインですので、ソフトウエアRAID、ハードウエアRAID、使用しているRAIDコントローラ等によるところもあるかと思います。
確認したいのは一般的なRAIDの振る舞いとして、ここまでは障害として認識するだろうといった境界線を知りたいです。
  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 過去に投稿した質問と同じ内容の質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

回答 1

checkベストアンサー

+2

RAIDコントローラによる、で終わってしまう話のような気がしますが、昔Data ONTAPでHDDの警告出たけど切り離されずにそのまま使用されている状態だったときに、サポートやCEから聞いた話をします。うろ覚えなので多少間違っているかも知れません。

RAIDコントローラはいろいろな点でHDDを監視しています。S.M.A.R.Tというのを聞いたことがあると思いますが、HDDでは、読み込みエラーや書き込みエラー、その他いろいろなエラーについて自動的に検出し、その回数等を取得できる機能を持っています。RAIDコントローラはそのエラー回数等を常に監視しており、製品によって(または設定によって)決められた回数以上になればそのHDDは使用できないと判断し、切り離しを行うようになっているとのことです。使用できないと判断する回数はエラーの種類によって異なり、軽微なエラーであれば多少あってもそのまま使用するし、重大なエラーは1回でも起きると故障と判断することもあるそうです。なお、許容範囲内の軽微なエラーであっても、サポートの判断によっては予防交換する場合もあります。また、故障とする回数は、同じメーカーの製品であっても機種などによって異なり、SSDやSASなどといったディスクやインターフェースの種類によっても異なるそうで、このエラーは何回というのが常に決まっているわけでは無いそうです。なお、このエラー検出は、不良セクタなどのOSからも見えるレベルでは無く、ハード部分の内部動作でエラーが無いかを見ていることに注意してください。実際に不良セクタなどがなくても、エラー回数等から故障する前兆であると判断して切り離す場合もあるそうです(むしろ、不良セクタが出てからでは遅い方で、前兆段階で切り離せるのがいい製品らしいです。ただ、あまりにも厳しいと交換ばかりになるので、そこら辺のバランスが取れているかが各メーカーの見せ所らしいです)。

以上ですが、上の話は100万円以上する専用NASや専用SANストレージでの話なので、低価格のNASやソフトウェアRAIDでは事情が異なる可能性があります。サーバ用のハードウェアRAIDであれば、似たような仕組みを持っている可能性は高いですが、専用NAS等に比べると作り込みのレベルは落ちると思います。

また、メタ情報が壊れた場合、一般的に復旧は不可能です(専門の業者に頼めば、一応復旧はできる場合もありますが、料金はとても高いです)。メタ情報が壊れる原因はソフトのバグやオペレーションミスであり、RAIDが守る範囲を超えています。もうひとつ、まともなRAIDコントローラではメタ情報を二重三重にバックアップするため、物理故障で破壊されることはありません。

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2015/08/21 22:02

    ご回答いただきありがとうございます。
    監視方法、障害判定等、細かい違いはあれど、少なくともS.M.A.R.T.機能で予測検知可能なレベルの障害は認識可能と理解しました。
    (不良セクタが発生してから検知するのは遅いという点についてもS.M.A.R.T.の検査項目からも納得できました)
    また、各ファイルシステム固有の管理方法があるメタ情報については守備範囲外であることもわかりました。
    確かに各ベンダのRAIDコントローラに関する対応表でも、サーバやOSまでは対応一覧が存在しますが、対応ファイルシステムの記載はないですね。ソフトウェアRAIDについても同様のようです。

    非常に貴重なご意見をいただきありがとうございました。
    もやもやとしていた部分が取れたようで、スッキリしました!

    キャンセル

15分調べてもわからないことは、teratailで質問しよう!

  • ただいまの回答率 88.03%
  • 質問をまとめることで、思考を整理して素早く解決
  • テンプレート機能で、簡単に質問をまとめられる

関連した質問

同じタグがついた質問を見る