突然ネットワークがイカれてしまった件 [医療情報技師というお仕事]
長年システム運用していると、こんなこともあるもので。
*最近さっぱり情報システム系の記事を書いておりませんが、いまだ現職のシステム管理者です。私。
仕事を終えて、帰宅。さて夕食をとるか、という段になって現場から連絡がある。
「電子カルテが動かなくなっちゃったんです」「どのフロアも動かないみたいです」
うひょう!自宅からリモート接続してある程度状況確認できるようにしたので、のぞいてみる。リモートサーバーには接続できるな。では電子カルテサーバーは、と。
ありゃりゃ、つながらない。動いていないのかな。別の端末にアクセス。これもダメ。院内システムが止まっている。今までもリモートで小さなトラブルは解決させてきたけれど、これは現地に赴かねばならない。
VLANで分けている院内情報システムの一つが機能していない
職場に到着。現況確認すると、どうやら電子カルテのみならず、ファイルサーバーも機能していない様子である。
けれど・・
サーバーは、動いている。エラーも出していない。
端末は、動いている。これも特にトラブルはない。
けれど各端末とサーバー間、そして端末相互の通信ができていない。いや、厳密には通信はできているが、非常に遅い。
当院のネットワークは、VLANで複数のネットワークを論理的に分けている。そのうち、電子カルテのVLANだけが機能していない。その他のVLANは全く正常に稼働している。
だから私の自宅からリモート接続は可能だったのだ。
なぜだ。
原因の切り分けを行う
とりあえずこんな場合、再起動してみる。結構そんなことで解決したりする。
サーバーを再起動する。
ネットワークスイッチを再起動する。
ダメだ。
何が問題なのか
複数スイッチで構成しているVLANの一つが完全に機能していないのなら、ネットワークスイッチの故障とは考えにくい。いやしかしそれにしても。
当院に導入しているSymantecのセキュリティソリューションが通信を遮断しているのか?いや、別のネットワーク系ではそんなトラブルは起きていない。試しに1台削除しても改善せず。
そういえば最近実施された(2014年8月)のWindowsUpdateで、パッチの一つにトラブルがあったよなあ。けれどそれはWin8系のカーネルOSのパッチで、しかもこんなトラブルとは関係ないはずだし、しかもパッチは適用してから数日経ってるしなあ。
状況から見てネットワーク輻輳(大量のデータが流れ込むことによってネットワークが著しく遅くなってしまう現象)が疑われるけれど、ネットワークスイッチを直接見たが異常っぽいものはなかったけれどなあ。
と、いろいろ考えるが・・・。
こんな時はネットワークをプリミティブな構成にしてみる
端末間の通信ができていないんなら、Peer to Peer接続(端末同士1対1の接続。実際にはクロスケーブルを接続するのが面倒なのでスイッチを間にかませる)してみるか。できない、なぜだ。あ、基幹スイッチに接続しているケーブルがそのまんま。外す。
あ、通信できた!
サーバーから直にネットワークケーブルを引っ張り、前述のPeer to Peer端末のスイッチに直接接続してみる。
通信できてるよ。
基幹部分に使用しているスイッチの使用を止めて、昔使っていた別のスイッチに交換。そこにつないで見ると通信は回復しているようだ。構成の問題からちょっと遅いみたいだけど。
とりあえず病棟1フロアのみ回復したので、最小構成で業務を続行してもらう。
やっぱりネットワーク輻輳かな、と思い、現場確認する。現場に設置しているスイッチは全て私が把握しているので、全台確認。無線スイッチなども確認。別になんてことないよなあ。
念のため全てのネットワーク機器の電源を入れ直しておく。機材の暴走で、無駄なパケットを飛ばしまくっていないとも限らないので。
さて、仮復旧状態のネットワーク。このまま運用するわけにも行かない。通信が回復したことを踏まえて、元のAlliedTelesisのスイッチに、徐々に各端末を戻していく。
テスト用の端末を接続。通信はOKだ。さっきはできなかったスイッチとの通信も回復していた。 そして接続する端末を少しずつ増やして異常がないか確認する。
大丈夫そうだ。
仮復旧していた現場に、再度電子カルテを止める旨、現場に直接出向いて(これ大事なこと)連絡をする。
システム停止からほぼ4時間。ようやくシステム完全復旧する。報告書を書いてさあ帰ろうか、と時計を見ると日付が変わっていた。当院で最長のシステム停止アクシデントだった。
結局原因は何だったんだろうか
やっぱりネットワーク輻輳だったんだろうか。通信障害の状況が、それに酷似しているのだ。誰かが知らずにループさせちゃったのか、それとも機器の異常で大量のパケットを飛ばしたか。
外部からの攻撃か。いやしかしそれならオープンな側のネットワークにも問題が出ないかなあ。
それから10日。何のトラブルも起こっていない。結局なんだかわからない。
ネットワーク系は自前のエンジニアを養成するにも鬼門とも言える部分で、なかなか難しいものだ。
そんなわけで何でも屋の私には少々荷が重い。だから簡単な構成にして、障害時の対応をやりやすくはしているのだが。
来年にはシステム刷新をしなければならない。さて、どうしたものか。
*最近さっぱり情報システム系の記事を書いておりませんが、いまだ現職のシステム管理者です。私。
仕事を終えて、帰宅。さて夕食をとるか、という段になって現場から連絡がある。
「電子カルテが動かなくなっちゃったんです」「どのフロアも動かないみたいです」
うひょう!自宅からリモート接続してある程度状況確認できるようにしたので、のぞいてみる。リモートサーバーには接続できるな。では電子カルテサーバーは、と。
ありゃりゃ、つながらない。動いていないのかな。別の端末にアクセス。これもダメ。院内システムが止まっている。今までもリモートで小さなトラブルは解決させてきたけれど、これは現地に赴かねばならない。
VLANで分けている院内情報システムの一つが機能していない
職場に到着。現況確認すると、どうやら電子カルテのみならず、ファイルサーバーも機能していない様子である。
けれど・・
サーバーは、動いている。エラーも出していない。
端末は、動いている。これも特にトラブルはない。
けれど各端末とサーバー間、そして端末相互の通信ができていない。いや、厳密には通信はできているが、非常に遅い。
当院のネットワークは、VLANで複数のネットワークを論理的に分けている。そのうち、電子カルテのVLANだけが機能していない。その他のVLANは全く正常に稼働している。
だから私の自宅からリモート接続は可能だったのだ。
なぜだ。
原因の切り分けを行う
とりあえずこんな場合、再起動してみる。結構そんなことで解決したりする。
サーバーを再起動する。
ネットワークスイッチを再起動する。
ダメだ。
何が問題なのか
複数スイッチで構成しているVLANの一つが完全に機能していないのなら、ネットワークスイッチの故障とは考えにくい。いやしかしそれにしても。
当院に導入しているSymantecのセキュリティソリューションが通信を遮断しているのか?いや、別のネットワーク系ではそんなトラブルは起きていない。試しに1台削除しても改善せず。
そういえば最近実施された(2014年8月)のWindowsUpdateで、パッチの一つにトラブルがあったよなあ。けれどそれはWin8系のカーネルOSのパッチで、しかもこんなトラブルとは関係ないはずだし、しかもパッチは適用してから数日経ってるしなあ。
状況から見てネットワーク輻輳(大量のデータが流れ込むことによってネットワークが著しく遅くなってしまう現象)が疑われるけれど、ネットワークスイッチを直接見たが異常っぽいものはなかったけれどなあ。
と、いろいろ考えるが・・・。
こんな時はネットワークをプリミティブな構成にしてみる
端末間の通信ができていないんなら、Peer to Peer接続(端末同士1対1の接続。実際にはクロスケーブルを接続するのが面倒なのでスイッチを間にかませる)してみるか。できない、なぜだ。あ、基幹スイッチに接続しているケーブルがそのまんま。外す。
あ、通信できた!
サーバーから直にネットワークケーブルを引っ張り、前述のPeer to Peer端末のスイッチに直接接続してみる。
通信できてるよ。
基幹部分に使用しているスイッチの使用を止めて、昔使っていた別のスイッチに交換。そこにつないで見ると通信は回復しているようだ。構成の問題からちょっと遅いみたいだけど。
とりあえず病棟1フロアのみ回復したので、最小構成で業務を続行してもらう。
やっぱりネットワーク輻輳かな、と思い、現場確認する。現場に設置しているスイッチは全て私が把握しているので、全台確認。無線スイッチなども確認。別になんてことないよなあ。
念のため全てのネットワーク機器の電源を入れ直しておく。機材の暴走で、無駄なパケットを飛ばしまくっていないとも限らないので。
さて、仮復旧状態のネットワーク。このまま運用するわけにも行かない。通信が回復したことを踏まえて、元のAlliedTelesisのスイッチに、徐々に各端末を戻していく。
テスト用の端末を接続。通信はOKだ。さっきはできなかったスイッチとの通信も回復していた。 そして接続する端末を少しずつ増やして異常がないか確認する。
大丈夫そうだ。
仮復旧していた現場に、再度電子カルテを止める旨、現場に直接出向いて(これ大事なこと)連絡をする。
システム停止からほぼ4時間。ようやくシステム完全復旧する。報告書を書いてさあ帰ろうか、と時計を見ると日付が変わっていた。当院で最長のシステム停止アクシデントだった。
結局原因は何だったんだろうか
やっぱりネットワーク輻輳だったんだろうか。通信障害の状況が、それに酷似しているのだ。誰かが知らずにループさせちゃったのか、それとも機器の異常で大量のパケットを飛ばしたか。
外部からの攻撃か。いやしかしそれならオープンな側のネットワークにも問題が出ないかなあ。
それから10日。何のトラブルも起こっていない。結局なんだかわからない。
ネットワーク系は自前のエンジニアを養成するにも鬼門とも言える部分で、なかなか難しいものだ。
そんなわけで何でも屋の私には少々荷が重い。だから簡単な構成にして、障害時の対応をやりやすくはしているのだが。
来年にはシステム刷新をしなければならない。さて、どうしたものか。
ご無沙汰しました。ナイスを有難うございました。
by ponnta1351 (2014-09-03 10:34)
ponntaさん、最近私もすっかりご無沙汰ですが、またよろしくお願いします。
by Mosel (2014-09-04 07:01)
ネットワークの障害は切り分けが大変ですよね。。
サーバー、スイッチ、クライアント、ケーブル。。。。どこに原因があるのか???
by cheese999 (2014-09-07 07:05)
ジョージさん。ここ数年のトラブルで一番焦りました。
現象としてはネットワーク輻輳が一番疑われるのですが、やっぱり何だったんだろう。
by Mosel (2014-09-07 08:16)
ネットワークのトラブル解決に向けて、切り分けをやってる姿が想像できてしまいちょっと面白かったです。
みんな色々考えて苦労してるんですねぇ^^
by まっつん (2014-10-14 23:42)
まっつんさん、初めまして。コメントありがとうございます。
こうしたトラブルは結構焦りますが、まずは基本に立ち戻って、障害の切り分けを進めることからですね。
しかしいまだに原因がわからない。スイッチ自身はループ対策できるものなのですが、逆にその機能がトラブルを起こしたことを考えて、あえて設定しなかったのです。
やっぱり見直しが必要かな、とも思っています。
by Mosel (2014-10-15 07:08)