「トラブル」カテゴリーアーカイブ

サーバ死亡+メモリチェック

今朝、出社前に起動したのにもかかわらずお昼前にはサーバが死んでいた。今度はARAID99-2000の状態はPrimaryもSecondaryもOKだった。あれ? 症状が違う。。。

そして今回はFC3の更新もなかったようだしup2dateも殺してあったからup2dateの疑いは晴れた。PS/2 to USB Converterも悪くないようだ。う〜〜〜〜む、いったい何が悪いと言うのだね、ちみ〜〜〜

もしかしたらメモリかも。。。 と思っておもむろにmemtest86なんぞをゲットしてきてテストすること30分。まだ半分程度しかテストは終わっていないけどエラーはなかったし、メールを送りたいってユーザがいたからとりあえずメモリは大丈夫だった、ということにした(いいのか、そんなんで ^_^;;)

そうそう、メモリテストを行う際にFDD起動しようと思ったらBIOSにFDDがないぞ、と怒られてしまってF1(強制起動)も効かない状態になっちゃったからFDD周りをチェックしてみると。。。 な、なんと、FDDとマザボをつなぐリボンケーブルが外れているじゃないですか。きちんとはめると今度はBIOSエラーもなくごく普通に起動してきた。

ま、まさか、このトラブルの原因はFDDのケーブルが外れてた(外れかかってた?)ことなのか?

カーネルが悪いのかな?

そして今朝も死んでいた。。。 う〜〜〜ん、何が原因なのかさっぱり見当がつかない〜〜〜

今朝の死に方はARAID99-2000のPrimaryもSecondaryもFailになっている、と言う悲惨なもの。サーバのハードウェア(Dell Optiplex GC)を替えてからどうもこの症状がでてるなぁ〜 もとのハード(同じくGC)に戻すかな。。。

って、今朝もup2dateを(他のマシンで)チェックしたら要更新になっていた。本当に偶然なのかな??? でも、でも、rhnsdはちゃんと殺してあるし。。。 で、今朝の更新ではカーネルが新しくなったので、新しいカーネルを試してみることにした。カーネルが悪い、と言うこともままあることだからね。

当然のことながら、今のところ順調(2時間経過・・・) (^_^;;;
このまま落ち着いてくれればいいのだけれど。。。

PS/2 to USB Converterも怪しい

PC切替器とLinuxの相性が悪いからこのときにPS/2 to USB Converterをサーバにつないだんだけど、このときにキーボードだけ直付けにした。で、その後実は別のPS/2 to USB Converterを買ってきてキーボードをそちら経由でつないでいたのだった。

いままでうまく動いていたものが不安定になるのには原因があるはずで、不安定になる直前に何を行ったのか思い出す必要がある。ここに投稿していなかったから忘れてたけど、ちょうど調子の悪くなる少し前にキーボードをUSB経由に付け替えたのを思い出した。

と言うことで、念のためキーボード、マウスとも直付けに戻してみることにした。サーバが不安定になった原因がup2dateなのかPS/2 to USB Converterなのかは分からなくなっちゃうけど、これ以上強制電源断したくないのよね。

やはりup2dateが怪しい

サーバの再構成はちゃんと終ったんだけど、どうやら再構成中にOSが死んでしまったらしい。ログを見てみると、再構成がまだ半分程度しか進んでいない時期にhttpの応答が無くなっている。

再構成中にup2dateが更新を促してきたので、ARAID99-2000の新しいファームウェアを試してやろうと同時にupdateも行なってみた。大量のディスクアクセスがあったにも関わらず、RAID 1 の再構成はちゃんと終ったらしい。でも、そしてまたもやup2dateの更新後にOSが死んだ (T_T)

こうなったらup2dateを止めてしまおう。まずはデスクトップのRed Hat Network Alert Notification Toolを終了させて、更新チェックデーモンを殺そう。きっと〔サービスの設定〕にあるrhnsdってやつだろうな。こやつを停止させて、起動時も停止にしておこう。

さて、これで安定するかな?

またサーバ落ち

ただいまARAID99-2000はST3250823AS一台の片肺運転中。とりあえず諸々のトラブルの原因切り分け中で、ARAID99-2000にも疑いの目が。。。

会社からこのサーバをモニタリングしていたら、まずIMAPサーバが応答を返さなくなった。しばらくするとhttpもだんまりになってしまった。早速帰宅して強制電源断して起動してみると問題なく立ち上がってくる。

ふぅ、と思っていた矢先にNautilusを立ち上げたらサーバが固まった。ぜんぜん原因がつかめない (T_T)
最近気がついたのは、サーバが落ちるときは決まってup2dateが更新を要求している。まさか、up2dateがおかしいのか???

サーバ落ち

ゴールデンウィーク初っ端にサーバが落ちてしまい、あいにく旅行に出かけていたためにず〜〜〜っと接続できませんでした。すみません。

原因は分かってないんですが、恐らく熱暴走ではないかと。このサーバーを作ったのが冬で、そろそろ暖かくなってきたから、じゃないかな。とりあえずカバーを外してみたので、しばらくは様子見。