2年前、仮想サーバーの運用を始めてから、電子カルテベンダとの関係もあって、サーバー台数が飛躍的に増加した。以前はベアメタルサーバーが2台だったのだが、仮想サーバー、アプリケーションサーバー、データベースサーバー、ファイルサーバー、バックアップサーバー、そして私がテスト運用しているサーバーで、総計でベアメタルが4台。仮想が4台の計8台。
バージョンやエディションの違いはあるものの、すべてWindowsサーバーである。
これを毎月ほぼ1度、すべて再起動しなければならない。
WindowsUpdateのために。
これが意外に面倒なのだ。
病院はシステム停止が基本的に出来ない 外来だけの診療所や、それこそ一般の製造業や小売業なら、店舗がお休みの日があり、業務が終了する時間があろう。
けれど病院ではそうはいかない。
何らかのかたちで24時間365日業務が継続しているので、システム停止を行うのはなかなかに手間がかかる。
システム停止しても大丈夫な日や時間を考え、現場責任者とそれを調整し、間違ってシステムを使わないように現場に直接通達を出し、そしてシステム停止前には、直接現場に出向いて「これから始めるよ」と声をかける。
「直接」というのが重要。小さい病院は特に。
さて、そんなこんなで再起動をする。以前の環境ではサーバー1台再起動するだけで良かったので、正味5分もあれば再起動は終わった。事前の通知は面倒だけれど、それでも停止時間は最小限だったので良かったのだが、今は違う。
増殖したサーバーを再起動していく手間
まず、電子カルテに使用しているデータベースサーバー(仮想)をアップデートして再起動。ファイルサーバー(仮想)をアップデートして再起動。サブシステムが稼働しているアプリケーションサーバー(仮想)を以下略。そして仮想サーバーを動かしているHyper-Vホストサーバーもアップデートして再起動。その際、一応仮想サーバー群を一旦停止させる作業が加わる。
*他のサーバーは業務に直接影響しないのでアップデートのタイミングには柔軟性がある。
*こうして一つ一つ再起動していく理由はと言うと、再起動に失敗してなかなか起動しないことが、まれにあるからだ。
再起動しなくてもパッチが当てられるようになればなあ
これに加えて昨年からWindowsのアップデータ配信方法が変わって、再起動にさらに時間がかかるようになってしまう。
当院のサーバー群はそこそこ高性能なので1台あたりのアップデート時間はそれほどでもないんだけれど、4台もあると・・。今まで5分だったのが30分くらいはかかってしまう。
アップデートの際に必ずと言っていいほど再起動を要求する仕様は、なんとかならないものかといつも思う。
ふと思えば5年くらい前にも、このBlogで同じようなことを書いていたなあ。
サーバー(の部品)が壊れていた
しかも今回はなかなか再起動しない。何せBIOS画面から先に行かないものだから、ますますのストレスなのである。
HPのサーバー向けカスタマーセンターに電話する。何か故障しているようでなかなか起動しなかった。Thermal and Temperature Calibrationで止まってファンが回転の変動を繰り返しているから温度センサーの異常?どうしたものかと問い合わせる。いつもHPサポート電話には、中国語圏と思われる人が電話に出る。けれどサーバーのシリアル番号を伝えるのに、数字とアルファベットが混じったこちらの日本語を良く解してくれ、折り返し日本国内の修理担当から電話が来る。電話で話すのと同時進行でiLOの画面を確認、電話をしながら「どうやらベアメタルサーバーのアレイコントローラーバッテリーがダメみたいですね」と説明する。温度センサーは大丈夫そうだ。
システムを停止させないと修理できないため、修理日程を現場と調整しカスタマーサポートに連絡する。希望日時を伝えると調整して折り返し担当者から電話をさせる、と言うことになったが、その電話の最中に修理担当の手配が出来た。修理日直前に部品が宅配便で届く。そして翌日エンジニアが来院し修理が完了。診断テストも実施し40分で終わる。
それが今日だった。
そんな毎日である。