地震でサーバ倒壊

今日の地震は大きかった。この地域は震度5弱だったみたいだけど、マンションの11階のゆれはもっと大きいからなぁ。と言うのも、このゆれでサーバとその上に乗せていたRAID装置が転倒してサーバが死んでしまったのだった。

RAID装置は転倒のショックでHDDトレイが少し飛び出てて、接続されていない状態になってた。と言うことは、HDDの書き込み中だったときだったら・・・ と、想像したくない事態に陥っているのかも・・・ 少なくともキーボードとマウスからの反応はないみたいだけど、サービスはかろうじて動いているようだから、急いでtelnetしてrebootしてみた。

恐る恐る再起動を見守っていると、やっぱり起動してこない (T_T)
スワップ領域を有効にしているあたりでハングアップしているみたい。HDDがいきなりオフラインになっちゃったんだからこれもある意味無理も無い。とりあえず runlevel 3で再起動してみたらHALdaemonの起動まではうまくいったから他のマシンからtelnetしてみた。

とりあえず# swapoff /dev/VolGroup00/LogVol01
# mkswap /dev/VolGroup00/LogVol01
# swapon /dev/VolGroup00/LogVol01
としてスワップ領域の再作成をしてみた。

でも、それでも起動してこない。起動プロセス中の各サービスの実行からログイン画面に移る前にハングアップしている。HALdaemonの起動の次はsshの起動だったからsshの自動実行を止めてみたけどそれでもだめ。最後はspamassassinだけど、それは関係なさそうだ。そうすると、その次は/etc/rc.d/rc.localの実行らしいんだけど、その中にはDiCEの自動実行設定があった。試しにDiCE自動実行設定をコメントアウトしたらちゃんと起動するようになった。Runlevel 5 も問題ない。

地震被害からの復旧は完了したけど、どうもDiCEは真剣に調べないといけないようだ。

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です