サーバーの不調はディスクが原因?

(コメント: 0)

サーバーの不調の原因の1つと思われるものが判明した。

再起動するとBIOSがS.M.A.R.T.の検査にハードディスクの1つが引っかかる。初めて見たような気もするけど、一応放っておくと先に進んで起動する。でも、これが他に影響を与えている可能性はないとも言えない。

atactl(8)で確認すると、

SMART supported, SMART enabled
id value thresh crit collect reliability description                    raw
  1 107    6     yes online  positive    Raw read error rate            174848558
  3  95    0     yes online  positive    Spin-up time                   0
  4 100   20     no  online  positive    Start/stop count               125
  5   1   36     yes online  negative    Reallocated sector count       4094
...
197 100    0     no  online  positive    Current pending sector         1
198 100    0     no  offline positive    Offline uncorrectable          1
...

上記でidの列が5の行は再割り当てしたセクターの数で、既に4094ものセクターが再割当てされている。このこと自体、尋常な状態ではないのだけど、valueの列は1でS.M.A.R.T.的に「危険」な状態であるthreshの列の36を大幅に下回ってる。(って、いうか殆ど下限なのではないだろうか。)

もっともディスクドライブとしては普通に使えていて特別に問題が起きているわけでもないという、良いのか悪いのかわからぬ状態である。いずれにしても、このままにしておくわけにはいかないため、他のディスクに内容を移動した。

ついでに、dd(1)ですべてのセクターをゼロで上書きして簡易的なデータの消去、といっても内容は外から取得したソースファイルとかばかり。

問題のディスクはSEAGATEのST31000528ASで、iMacでリコールの対象にもなったらしいモデル。稼働時間は2年1か月くらい過ぎていて、ファームウェアのアップデートも存在するようだけど、2年も過ぎているし手間をかける時間の方が勿体無いかな。

ちなみに気が付く原因となった今日のトラブルは、久々に発生した家庭内側LANであるオンボードのbge(4)に対して、dhcpd(8)がsend_packet: No buffer space availableと通信不能となって、ifconfig bge0 downするとパニックして落ち、しっかりクラッシュダンプを取っているように見えるのに、再起動後にsavecore(8)はcrash dumpなんてないと言う、何だかなぁという状況である。

戻る

コメントを追加