SSブログ

サーバーのRAIDアレイが壊れたので対処する [医療情報技師というお仕事]

 先日サーバーのバックアップを確認してみると、失敗しているのかエラーが出ている。再度その場で実施してみると、バックアップ自体はうまくできているが、データの検証作業で、ある特定のフォルダについて読み込みに失敗するようだ。

 その検証に失敗したフォルダをサーバーから直接アクセスしてみると、エラーを出して開けない。

120920err1.jpg
「・・・にアクセスできません。ファイルまたはディレクトリが壊れているため、読み取ることができません。」

 これはあまりいいエラーではない。ディスクに異常がある場合に発生することがある、ファイルシステム上のエラーだ。データ自体は存在するけれど、そのデータがどのように格納されているかという情報が、破損してしまったことからくるエラー・・だよね。

 ログを確認してみると、原因らしきものがわかった。

 ディスクが故障していた。当日の午前1時36分に。
 導入2年半。SASの2.5インチ300GBのHDDが壊れたのだ。完全に。

121016err4.jpg
中央上部のディスク 他が緑ランプなのにこれだけ橙色のランプ つまり故障している

120920err2.jpg
Windowsのログ

121016err3.jpg
HPのサーバー管理ツールiLOのログ いずれもディスク故障を記録している
*2011年3月11日のデータがあるのがわかりますか?この日サーバーのBIOSをアップデートしていました。そしてそれが完了して数時間後、例の地震で全館停電。まあ、地震にぶつかっていたとしても、多分大丈夫だったとは思いますが。

 当院のサーバー、6台のHDDをRAID6で運用しており、さらに1台をホットスペアとして(電源は入っているがデータのやりとりをしていないディスク)使用しているから、誰も気づかず再構築。6時間後くらいに完了し、ひっそりと障害は解決していた。
 けれど珍しいことに、再構築の過程でファイルシステムに異常を来したらしい。

 きちんと稼働はしているが、故障したディスクは交換してもらわなければならない。HPのサポートセンターに連絡する。サーバー系はパソコンのサポセンと違ってすぐにつながる。

 「Lee」さんという方が対応。すぐに修理の手配をしてくれる。中国にコールセンターを置いているのか、いつも中国系の人が対応してくれる。けれど聞き間違いも一切ないし、日本語英語入り乱れた言葉でシリアルなど話してもきちんと聞き取ってくれる。
 24時間4時間以内対応のサポートに入っているので、3時間後には交換部品がバイク便で届き、エンジニアも程なくして到着。早速ログを確認して交換作業を実施する。当然システムは稼働したまま。現場の職員は故障したことにも気づかない。サポートに入っているので部品代や技術料もかからない。

 「RAIDの再構築中にファイルシステムが壊れるなんてあるんですか?」「ほとんど聞きませんねえ」というやりとりをする。ログを見ると、正常に稼働している別のHDD1台が、若干エラーを出していて、RAID再構築の過程で、それが原因になったかもと言う話をする。

 HDDを交換すると、ホットスペアに使っていたベイ7のディスクから、新しいベイ5のHDDへデータをコピーしている。完了するとベイ7のHDDは元のようにホットスペアに戻るのだ。
 コピー時間は2時間ほどだった。

 見られなくなったフォルダのデータは、BackupEXECでバックアップしたデータからリネームして復旧。これで現場の業務には支障は出ない。

サーバーでもCHKDSKでOK

 ファイルシステム異常で見られなくなったフォルダは、削除することもできない。普通のパソコンでもこのようになる場合があるけれど、サーバーでも対処法は同じでCheckDiskを走らせる。
 別の日にシステム停止してCHKDSKを。「コンピュータの管理」から「ディスクの管理」を選択して、エラーチェックを実施。再起動時にエラー訂正をしてくれる。今回の場合、ディスク装置の故障は回復しているので、データはまず確実に復旧できるだろう。2GBほどのデータの入ったフォルダだったためか、修正完了まで15分ほどかかる。

 起動したWindowsServerからデータを確認。データ自身は復旧済みだったので、修復して見られるようになったフォルダは削除してしまう。これで一件落着、と。

・・・・・

 RAIDは複数のディスク装置を束ねて、耐障害性と速度を高める技術で、結構昔からある。RAID5は構成しているディスクをストライピングして高速化させ、かつパリティデータをもたせて、ディスクが1台故障しても稼働を継続できる技術(だからストライピングだけのRAID0は厳密にはRAIDではない)。最小構成は3台から。
 けれどRAID5でディスクが故障し、新しいディスクを入れて再構築している最中に、別のディスクが故障する(つまり全データを失う)というトラブルがままあるようだ。RAIDなので、ディスク装置は同じ時期の同じロットである場合が多く、そうすると故障の時期も似通ってくるというわけだ。
 ましてやRAID5や6の再構築って、結構ディスクに負荷をかけるから、その過程で壊れてしまう場合があると、HPのサポートも言っていた。そんなわけで2台まで故障しても大丈夫なRAID6が考案されたんだと思う。

 ここ数年で導入されるサーバーはRAID6が多いはず。当院、2003年導入のディスク装置はRAID5。2010年導入のこのサーバーはRAID6。おまけに導入時無理言ってホットスペアディスクもつけてもらったおかげで、今回は大丈夫だった。

一人職場では時として自分とのたたかいが一番苦しいものとなる

 けれどこういう障害って、管理している側から言わせてもらうと、かなりのストレスなのよね。
 今回のトラブルでも、考えられる障害の可能性を検討して、それの対処を何となく考えておく。主要な関係者には大きなトラブルになる可能性を~その可能性は低いということも含め~伝えておく。そんなことを考えながら、ここ数日間を過ごす。誰も他にできる人はいないし、誰かが後始末をつけられるわけでもない。

 一人で仕事をしているこんな時、何よりも自分とのたたかいが一番厳しいものになる。それでもスキルを上げていくことで、辛さのハードルは少しずつ下がっていく。
 日進月歩の技術革新の中、それは容易なことではないだろうが。

nice!(6)  コメント(6)  トラックバック(0) 
共通テーマ:仕事

nice! 6

コメント 6

cheese999

拙者、通信機器の保守を仕事にしてますが、保守費は年々減少の一途をたどっており、リソースが少ない中、何とかやっております。
(^_0)ノ
by cheese999 (2012-10-21 14:03) 

Mosel

運用管理や保守って、実は導入よりも大事なことなんだけれど、日常のことなので軽視されがちですね。

それじゃダメなんですけどね。

とりあえず人員配置して安心しちゃって、その後大きなトラブルが出て大慌てなんてのを、私の会社で幾度となく見てるんですけどね、トラブルが起こってから対処する方がよっぽどコストも大きいのに、それと同じ事なんですけれどね。
by Mosel (2012-10-21 22:35) 

ponnta1351

さっぱり分かりません。
お仕事に使っていないので気楽にやっていますが、バックアップも取って居ないし、ダメになったらお手上げです(w_-; ウゥ・・
by ponnta1351 (2012-10-22 11:20) 

Mosel

私も自宅のパソコンは、バックアップはあまり取っていませんね。写真などのデータは、大丈夫なようにはしていますけど。

昔は大事だったゲームのセーブデータとかは、もう、ほったらかしです。

でもディスクって、サーバー用の高価なものでも壊れるときは壊れるんですよね。
by Mosel (2012-10-24 07:07) 

punpukinpie

私も同じ、一人職場の電子カルテ運用担当として働いてました。
メーカー保守契約無しの病院で働いてましたが、RAID系の障害を2度経験しました。
保守契約して予防交換をしていれば防げた障害だと思いますが・・・
目先のコストだけで保守契約にコストを割かない病院は懲り懲りです。
ストレスに負けて、そこを退職して、再就職先を探しています。

以前、他の案件で導入したHPサーバの障害対応は好印象でした
まあそこはちゃんと保守契約結んでましたが
by punpukinpie (2012-11-27 00:02) 

Mosel

punpukinpieさん。コメントありがとうございます。

 保守契約なしなんてひどい病院ですね。「医療情報技師の更新」記事にも少し書きましたが、システム担当をまともに配置しない病院があると聞いたことはありますが(当院も事実上そうでしたけど)、当事者から実例を聞くことはほとんどありません。

 5年の保守契約がありますので、今回の修理は無償でした。まあRAID6ですから、故障が発覚してからサクッと替えてしまえばいいやと思っていました。今ではディスクの稼働状況も定期的にモニタしています。

 記事内に「正常に稼働している別のHDD1台が、若干エラーを出していて」とあります。これを予防的に交換しようとHPとやりとりしている間に、壊れました。この時は異常は出ませんでした。

 一人職場では、他の職種といかに仲良くなるかがカギだと思っています。そして患者やその家族とも。ストレスに負けそうになるとき、不思議とそれらの人たちが、助けてくれるのです。何も言っていないのに。

 再就職先、見つかるといいですね。今はゆっくり休んで。
by Mosel (2012-11-27 07:07) 

コメントを書く

お名前:
URL:
コメント:
画像認証:
下の画像に表示されている文字を入力してください。

トラックバック 0

この広告は前回の更新から一定期間経過したブログに表示されています。更新すると自動で解除されます。