ディスク構成がRAID1で、一台のハードディスクが壊れた時の検出方法？

ディスク構成がRAID1で、一台のハードディスクが壊れた時の検出方法は、
どうすれば、よいですか？

Linux CentOSサーバーです。

PS.
どこかのサイトから拾ってきた部分↓、しかし、どうやって、下記ログを吐いたときにアラームをあげるようにすればよいのか不明。

実際にドライブが故障した時のログです。プライマリーマスターのドライブが故障し、切り離されたことがわかります。
04-September-2003 16:37.13
SiICfg Event Logger Started
04-September-2003 16:37.13
SiICfg Event writer starting up.
04-September-2003 17:11.22
Warning - Member dropped ← ここで切り離し
Set 0 dropped member 0 on adapter 0 due to a port error. SRB status was Request Timed Out.

SRB : SCSI Request Block
SRB status の Timed Out
SRB status のタイムアウトが起こってもドライブが故障したとは限りませんが、
タイムアウトが頻発するような場合は何らかの問題があるものと考えられますので注意が必要です。

ミラーリングはドライバ仕様書によると次のような動作をしていると書かれています。
1.読み書きの要求を受け取る
2.受け取った読み書き要求のコピー(SRB)を２個作る
3.それぞれのドライブに対してコピーした読み書き要求を送る（チャイルドプロセス）
4.それぞれのドライブから正常終了のステータスを受け取る
5.元の読み書き要求に対して正常終了のステータスを返す
SRB status のタイムアウトは４の段階でドライブから正常終了のステータスを一定時間内に受け取れなかった場合に起こります。
つまり故障ではなくても何らかの理由で正常終了のステータスが遅れればタイムアウトとなります。

行動規範の内容に同意します

回答1件

ベストアンサー

ハードウェアRAIDの場合はRAIDコントローラの機能に依存します。
サーバ製品の場合はHPでいえばilo DELLではiDracなどからのtrap受信で検知できます。
PCサーバの場合、RAIDコントローラで検知機能がないものがありますので、両方のディスクでエラーが発生し、バックアップしてから復旧しなければならないといった事もありました。

ソフトウェアRAIDの場合は、定期的にdd等でディスク全体を読み込みわざとエラーを検出させるようにします(サーフェイス)。こちらはOSで検知できますので、SYSLOG等確認するようにします。
暫くはformatコマンド等でエラーブロックを読まないようにして対応も可能ですが、できれば予防交換した方が良いと思います。

投稿2015/10/10 02:18

Ken.sakanakana

総合スコア1768

退会済みユーザー

2015/10/10 04:12

trap受信やログの監視とありますが、やはり、故障をメールで通知などは、難しく、毎日、ログの監視などが必要ということでしょうか？

Ken.sakanakana

2015/10/10 05:09

ハードウェアRAIDの場合で、サーバ製品の場合、その機能によるとしか言えません・・・ただ、trapも自身でsnmptrapdを起動しておいて、 http://yosshi.snowdrop.asia/2015/06/14/ubuntu%E3%81%A7snmptrapd%E3%82%92%E8%B5%B7%E5%8B%95%E3%81%99%E3%82%8B/ の様にpipeでメールを飛ばす事もできるので、trapだからと言って悲観することも無いかと思います。

退会済みユーザー

2015/10/10 05:28

ありがとうございます。参考になりました。こういう風にメールで飛んでくると、確認作業が省けて、確認忘れ時などの時に助かりますね。

Ken.sakanakana

2015/10/10 10:44

例のログの部分は追記されたのでしょうか。 kernel: Buffer I/O error on device sda1 のような文字列 I/O error on device DISKのデバイス名　の形式でマッチされてはどうでしょうか。上記例ですとSCSIに特化してしまいますし。最近では SATAやSAS、SSDがメインかなと思いますし。あと、ソフトウェアRAIDの場合ディスクが直接みえますので、 S.M.A.R.Tを扱えるsmarmontoolsなどを入れ、selftestさせる事もできます。ハードウェアの場合は、例えばですが、DELLでは「omreport storage vdisk controller=0」コマンドでの確認も可能です。絞り込めませんので話が発散してしまいました。失礼しました。

退会済みユーザー

2015/10/19 06:57

色々ありがとうございます。結局、アラーム検出は、難しいということですね。もうちょっと材料がそろったところで、再度、ご質問に挙げさせていただきます。

行動規範の内容に同意します