WindowsのログHPのサーバー管理ツールiLOのログ いずれもディスク故障を記録している*2011年3月11日のデータがあるのがわかりますか?この日サーバーのBIOSをアップデートしていました。そしてそれが完了して数時間後、例の地震で全館停電。まあ、地震にぶつかっていたとしても、多分大丈夫だったとは思いますが。 当院のサーバー、6台のHDDをRAID6で運用しており、さらに1台をホットスペアとして(電源は入っているがデータのやりとりをしていないディスク)使用しているから、誰も気づかず再構築。6時間後くらいに完了し、ひっそりと障害は解決していた。
けれど珍しいことに、再構築の過程でファイルシステムに異常を来したらしい。
きちんと稼働はしているが、故障したディスクは交換してもらわなければならない。HPのサポートセンターに連絡する。サーバー系はパソコンのサポセンと違ってすぐにつながる。
「Lee」さんという方が対応。すぐに修理の手配をしてくれる。中国にコールセンターを置いているのか、いつも中国系の人が対応してくれる。けれど聞き間違いも一切ないし、日本語英語入り乱れた言葉でシリアルなど話してもきちんと聞き取ってくれる。
24時間4時間以内対応のサポートに入っているので、3時間後には交換部品がバイク便で届き、エンジニアも程なくして到着。早速ログを確認して交換作業を実施する。当然システムは稼働したまま。現場の職員は故障したことにも気づかない。サポートに入っているので部品代や技術料もかからない。
「RAIDの再構築中にファイルシステムが壊れるなんてあるんですか?」「ほとんど聞きませんねえ」というやりとりをする。ログを見ると、正常に稼働している別のHDD1台が、若干エラーを出していて、RAID再構築の過程で、それが原因になったかもと言う話をする。
HDDを交換すると、ホットスペアに使っていたベイ7のディスクから、新しいベイ5のHDDへデータをコピーしている。完了するとベイ7のHDDは元のようにホットスペアに戻るのだ。
コピー時間は2時間ほどだった。
見られなくなったフォルダのデータは、BackupEXECでバックアップしたデータからリネームして復旧。これで現場の業務には支障は出ない。
サーバーでもCHKDSKでOK ファイルシステム異常で見られなくなったフォルダは、削除することもできない。普通のパソコンでもこのようになる場合があるけれど、サーバーでも対処法は同じでCheckDiskを走らせる。
別の日にシステム停止してCHKDSKを。「コンピュータの管理」から「ディスクの管理」を選択して、エラーチェックを実施。再起動時にエラー訂正をしてくれる。今回の場合、ディスク装置の故障は回復しているので、データはまず確実に復旧できるだろう。2GBほどのデータの入ったフォルダだったためか、修正完了まで15分ほどかかる。
起動したWindowsServerからデータを確認。データ自身は復旧済みだったので、修復して見られるようになったフォルダは削除してしまう。これで一件落着、と。
・・・・・ RAIDは複数のディスク装置を束ねて、耐障害性と速度を高める技術で、結構昔からある。RAID5は構成しているディスクをストライピングして高速化させ、かつパリティデータをもたせて、ディスクが1台故障しても稼働を継続できる技術(だからストライピングだけのRAID0は厳密にはRAIDではない)。最小構成は3台から。
けれどRAID5でディスクが故障し、新しいディスクを入れて再構築している最中に、別のディスクが故障する(つまり全データを失う)というトラブルがままあるようだ。RAIDなので、ディスク装置は同じ時期の同じロットである場合が多く、そうすると故障の時期も似通ってくるというわけだ。
ましてやRAID5や6の再構築って、結構ディスクに負荷をかけるから、その過程で壊れてしまう場合があると、HPのサポートも言っていた。そんなわけで2台まで故障しても大丈夫なRAID6が考案されたんだと思う。
ここ数年で導入されるサーバーはRAID6が多いはず。当院、2003年導入のディスク装置はRAID5。2010年導入のこのサーバーはRAID6。おまけに導入時無理言ってホットスペアディスクもつけてもらったおかげで、今回は大丈夫だった。
一人職場では時として自分とのたたかいが一番苦しいものとなる けれどこういう障害って、管理している側から言わせてもらうと、かなりのストレスなのよね。
今回のトラブルでも、考えられる障害の可能性を検討して、それの対処を何となく考えておく。主要な関係者には大きなトラブルになる可能性を~その可能性は低いということも含め~伝えておく。そんなことを考えながら、ここ数日間を過ごす。誰も他にできる人はいないし、誰かが後始末をつけられるわけでもない。
一人で仕事をしているこんな時、何よりも自分とのたたかいが一番厳しいものになる。それでもスキルを上げていくことで、辛さのハードルは少しずつ下がっていく。
日進月歩の技術革新の中、それは容易なことではないだろうが。