質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.50%
CentOS

CentOSは、主にRed Hat Enterprise Linux(RHEL)をベースにした、フリーのソフトウェアオペレーティングシステムです。

Q&A

解決済

1回答

5771閲覧

ディスク構成がRAID1で、一台のハードディスクが壊れた時の検出方法?

退会済みユーザー

退会済みユーザー

総合スコア0

CentOS

CentOSは、主にRed Hat Enterprise Linux(RHEL)をベースにした、フリーのソフトウェアオペレーティングシステムです。

0グッド

1クリップ

投稿2015/10/10 01:56

編集2015/10/10 04:11

ディスク構成がRAID1で、一台のハードディスクが壊れた時の検出方法は、
どうすれば、よいですか?

Linux CentOSサーバーです。

PS.
どこかのサイトから拾ってきた部分↓、しかし、どうやって、下記ログを吐いたときにアラームをあげるようにすればよいのか不明。

実際にドライブが故障した時のログです。プライマリーマスターのドライブが故障し、切り離されたことがわかります。
04-September-2003 16:37.13
SiICfg Event Logger Started
04-September-2003 16:37.13
SiICfg Event writer starting up.
04-September-2003 17:11.22
Warning - Member dropped ← ここで切り離し
Set 0 dropped member 0 on adapter 0 due to a port error. SRB status was Request Timed Out.

  • SRB : SCSI Request Block

SRB status の Timed Out
SRB status のタイムアウトが起こってもドライブが故障したとは限りませんが、
タイムアウトが頻発するような場合は何らかの問題があるものと考えられますので注意が必要です。

ミラーリングはドライバ仕様書によると次のような動作をしていると書かれています。
1.読み書きの要求を受け取る
2.受け取った読み書き要求のコピー(SRB)を2個作る
3.それぞれのドライブに対してコピーした読み書き要求を送る(チャイルドプロセス)
4.それぞれのドライブから正常終了のステータスを受け取る
5.元の読み書き要求に対して正常終了のステータスを返す
SRB status のタイムアウトは4の段階でドライブから正常終了のステータスを一定時間内に受け取れなかった場合に起こります。
つまり故障ではなくても何らかの理由で正常終了のステータスが遅れればタイムアウトとなります。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

ベストアンサー

ハードウェアRAIDの場合はRAIDコントローラの機能に依存します。
サーバ製品の場合はHPでいえばilo DELLではiDracなどからのtrap受信で検知できます。
PCサーバの場合、RAIDコントローラで検知機能がないものがありますので、両方のディスクでエラーが発生し、バックアップしてから復旧しなければならないといった事もありました。

ソフトウェアRAIDの場合は、定期的にdd等でディスク全体を読み込みわざとエラーを検出させるようにします(サーフェイス)。こちらはOSで検知できますので、SYSLOG等確認するようにします。
暫くはformatコマンド等でエラーブロックを読まないようにして対応も可能ですが、できれば予防交換した方が良いと思います。

投稿2015/10/10 02:18

Ken.sakanakana

総合スコア1768

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

退会済みユーザー

退会済みユーザー

2015/10/10 04:12

trap受信やログの監視とありますが、やはり、故障をメールで通知などは、難しく、毎日、ログの監視などが必要ということでしょうか?
退会済みユーザー

退会済みユーザー

2015/10/10 05:28

ありがとうございます。参考になりました。こういう風にメールで飛んでくると、確認作業が省けて、確認忘れ時などの時に助かりますね。
Ken.sakanakana

2015/10/10 10:44

例のログの部分は追記されたのでしょうか。 kernel: Buffer I/O error on device sda1 のような文字列 I/O error on device DISKのデバイス名 の形式でマッチされてはどうでしょうか。上記例ですとSCSIに特化してしまいますし。最近では SATAやSAS、SSDがメインかなと思いますし。 あと、ソフトウェアRAIDの場合ディスクが直接みえますので、 S.M.A.R.Tを扱えるsmarmontoolsなどを入れ、selftestさせる事もできます。 ハードウェアの場合は、例えばですが、DELLでは「omreport storage vdisk controller=0」コマンドでの確認も可能です。 絞り込めませんので話が発散してしまいました。失礼しました。
退会済みユーザー

退会済みユーザー

2015/10/19 06:57

色々ありがとうございます。 結局、アラーム検出は、難しいということですね。 もうちょっと材料がそろったところで、再度、ご質問に挙げさせていただきます。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.50%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問