ファイルシステムのトラブル？ Buffer I/O error on device

Question

お世話になります。

VMWARE仮想マシンとして利用しているCENTOSにて、ファイルシステムエラーがでており対応策をアドバイスいただけませんでしょうか。

エラーが出ているのは、仮想マシンに接続している外付けUSB接続のHDDです。(エラーメッセージは、最後に載せております。)

1 ファイルシステムのエラーで復旧できそうなのか。
2 ハードディスクの故障なのか。

アンマウントしてfsck チェックしたら改善できそうという情報もあったのですが、あまり操作したことのないコマンドなので、どなたかアドバイスいただけませんでしょうか。

どうぞ宜しくお願い致します。

Aug 16 14:29:13 centos-svn kernel: sd 4:0:0:0: [sdc]  Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE
Aug 16 14:29:13 centos-svn kernel: sd 4:0:0:0: [sdc]  Sense Key : Medium Error [current]
Aug 16 14:29:13 centos-svn kernel: sd 4:0:0:0: [sdc]  Add. Sense: Unrecovered read error
Aug 16 14:29:13 centos-svn kernel: sd 4:0:0:0: [sdc] CDB: Read(10): 28 00 06 b4 4d c0 00 00 08 00
Aug 16 14:29:13 centos-svn kernel: end_request: critical medium error, dev sdc, sector 112479680
Aug 16 14:29:13 centos-svn kernel: Buffer I/O error on device sdc1, logical block 14059952
Aug 16 14:29:13 centos-svn ntfs-3g[1054]: ntfs_attr_pread_i: ntfs_pread failed: Input/output error
Aug 16 14:29:13 centos-svn ntfs-3g[1054]: ntfs_attr_pread error reading '/SVN/reps/contentShared/db/revs/553' at offset 4096: 4096 <> -1: Input/output error
Aug 16 16:13:58 centos-svn ntfs-3g[1054]: ntfs_attr_pread_i: ntfs_pread failed: Input/output error
Aug 16 16:13:58 centos-svn ntfs-3g[1054]: ntfs_attr_pread error reading '/SVN/reps/contentShared/db/revs/553' at offset 4096: 5165 <> -1: Input/output error
Aug 16 16:13:58 centos-svn kernel: sd 4:0:0:0: [sdc]  Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE

Accepted Answer

うかつに回答してファイルが消失しても責任は持てず、たいへん回答しにくい質問ではあるのですが……。

ログにある hostbyte, DRIVER_SENSE, Medium Error などの意味は、以下に載っていました。
[http://archive.linux.or.jp/JF/JFdocs/SCSI-Programming-HOWTO.txt](http://archive.linux.or.jp/JF/JFdocs/SCSI-Programming-HOWTO.txt)

このログからわかることは、少なくとも /SVN/reps/contentShared/db/revs/553 が記入された部分が損傷しているという事実です。原因が単なるファイルシステムのエラーなのかハードディスクの故障なのかは、他の部分も調査してみないとなんとも言えません。

## まずはバックアップの確保

Subversion はそのデータ構造上、途中のリビジョンが破損しているとリカバリは非常に困難ですので、まず、553 のバックアップがないのであれば、早急に別ドライブにバックアップしてください。物理故障であれば、失敗しても何度かトライすると読める可能性があります。
一方、Subversionのバックエンドストアであるfsfsは、いったん生成されたリビジョンデータファイルは不変(プロパティは可変)なので、過去に一回でも取得したバックアップがあれば復旧にはそれが使えます。破損しかけた553のバックアップはさっさとあきらめてもよいです。
なお、故障範囲はそのパーティションを含んだドライブ全体である可能性があります。未バックアップなファイルがあれば、修復作業より前にバックアップを取得することをおすすめします。

回転軸などに故障があったりグリスが固まっている場合、いったん回転を止めると回りださなかったりすることがあるので、脱着は最小限にすべきです。また、ハードディスクは起動時に最も電力を使います。バスパワーで使っているなら外部電源をつなぐ、二股USBケーブルをつかってUSBを二口つかって給電する、太くて信頼できるUSBケーブルを使う、なども検討の余地があります。

## 他のエラーをチェック

少なくとも、sdc1 すなわち /SVN/reps/contentShared/db/revs/553 を含んでいるパーティションで読み出しエラーが起こっています。検知されたセクタはログから sdc, sector 112479680 ということが分かっています。

ディスクはそれ自身、不良セクタを検知すると、そのセクタを避けて代替セクタを使うように動作します。そのセクタが不良であるとマークされたあとは、そのセクタを踏んでいるファイルを編集した段階で代替セクタが使われます。今回のケースでは、553ファイルをバックアップから書き戻せば代替セクタが使われることが期待できます。
事前に用意した代替セクタを使い切ってしまうと、それ以上は対処できなくなります。smartctlコマンドが使えるようであれば、S.M.A.R.T関連で他にエラーが検知されていないか調べてみてください。大量に出ているようならディスクの寿命が近いので、リプレースをおすすめします。

追記: S.M.A.R.T情報の取り方や読み方は、この質問のsharowさんの回答がとても詳しく大変参考になるので参照してください。(追記ここまで)

## 修復

パーティションのフォーマットがntfsのようなので、エラーチェックや修復をするのに、fsckよりはWindowsのchkdskのほうが相性が良いかもしれません。バックアップが確保されていることを改めて確認したうえで、修復モードで実行することで、ディスクのエラーおよびファイルシステムの整合性がチェックされます。不整合があってみなしごだったファイルは、救出可能であればマウントポイントの lost+found とか FOUND.000 といったディレクトリに移されています。
救出できなかったファイルはどうしようもないので、バックアップから戻すなりしてください。上記のとおり、不良セクタにマーク済みであれば、553ファイルを上書きするだけで Subversionのリポジトリは復旧できているはずです。

Answer

私もつい先日1つ逝きました。しかもSSD。まだお通夜(RMA申請)が終わってません。

> 1 ファイルシステムのエラーで復旧できそうなのか。
> 2 ハードディスクの故障なのか。 

論理破損か、という意味ならエラーの内容からするとそうだとも思えますが、論理破損する原因は物理破損だったりするのでなんとも言えません。最近はUSB接続でも[S.M.A.R.T](https://ja.wikipedia.org/wiki/Self-Monitoring,_Analysis_and_Reporting_Technology)が使えたりするのでその値も確認してみてはいかがでしょうか。Linuxならsmartmontoolsが使えます。`sudo smartctl -a /dev/sdc`のようにして問い合わせます。Raw Read Error Rateがたくさん出ていて驚かれると思いますが、まず見るべきはReallocated Sectors Count(代替セクタ割り当て量)がどれくらいあるか、です。代替セクタを使い切るとあとはI/Oエラーが出るのを待つだけですから、この値がかなり重要です。他の値の意味も調べてみてください。それらS.M.A.R.Tの内容を張っていただけると回答者に役立ちます。

（WindowsならCrystalDiskInfoとかなんとかで見れるんでしたっけ）

HDDは電源投入時に自己診断が走り、基本的な機能をテストします。電源を入れると最初にカリカリ音がするのはそれです。物理的に破損していると、この自己診断でコケて、S.M.A.R.Tのログにその記録が残ります(ちなみに自己診断でコケたHDDを接続して電源を入れると、警告が表示されBIOSやUEFIに飛ばされます)。そのようなログがあるかどうかと、先のReallocated Sectors Countの数が物理的な限界にきているのかどうかの一つの基準になります。

とはいえ、一度I/Oエラーが出たドライブには重要なデータは入れない方がよいです。復旧に関しては既に良い回答があるのでそちらを参考にしてください。

-- 追記
```
SMART   Attributes
Vendor  Specific
ID#     ATTRIBUTE_NAME           RAW_VALUE
1       Raw_Read_Error_Rate      113020384
4       Start_Stop_Count         159
5       Reallocated_Sector_Ct    0
7       Seek_Error_Rate          36783101
9       Power_On_Hours           25704
10      Spin_Retry_Count         0
12      Power_Cycle_Count        148
183     Runtime_Bad_Block        0
184     End-to-End_Error         0
187     Reported_Uncorrect       1278
188     Command_Timeout          8590065672
194     Temperature_Celsius      45
197     Current_Pending_Sector   592
198     Offline_Uncorrectable    592
```

気になる部分だけ抜き出してみました。
第一印象は稼働時間で、2.5万時間は約3年稼働に当たります。人によっては1万時間を超えたHDDは現役引退させてバックアップ用に格下げしたりしますから、2.5万時間で実際に磨耗(エラー)があるのでしたら、現役引退させてもいいのではないでしょうか。

Current_Pending_Sectorが592個あるのにReallocated_Sectorが0なので、数値上は「代替えしたいセクタがあるけども使われてない」ということになります。おそらく代替えは書き込み時にしか行われないからでしょう。なので何度かそのセクタに書き込みを試みれば代替えセクタに割り当ててくれるかもしれません。
[こういう方法](https://blog.tndl.net/2013/12/18/565/smartctl-%E3%82%92%E4%BD%BF%E3%81%A3%E3%81%A6%E4%B8%8D%E8%89%AF%E3%82%BB%E3%82%AF%E3%82%BF%E3%82%92%E8%AA%BF%E3%81%B9%E3%81%A6%E5%BE%A9%E6%97%A7%E3%82%92%E8%A9%A6%E3%81%BF%E3%82%8B/)もあるようですが、個人的にはすべてデータを退避した上で、Windowsなら`chkdsk /r`で不良クラスタをNTFSに登録し、終わった後のSMARTを確認するのが手っ取り早いと思います。Linuxなら`badblocks`で全セクタのテストが行えます(ただしbadblocksはデータは消える前提で使いましょう)。しかしながら、退避したデータをこのHDDに戻して元のように運用したりするのはリスクがありますのでとてもお勧めできません。消えても構わないデータや多重バックアップの一部に使いましょう。

まずはバックアップの確保

他のエラーをチェック

修復

関連した質問