たまには仕事のことを・・。

 ちょうど一年前、大規模なシステム入れ替えを行なったのだが、ここのところ上記のことに悩まされていたのである。

 通信障害に。

通信障害の具体的な状況

 具体的には以下のようになる。
1.仮想サーバ群のネットワークが切断され、各クライアントから通信出来なくなる。1台の仮想サーバで発生し始めると、同一Hyper-Vホスト内の、その他のサーバにも波及する。

2.Hyper-Vホスト(ベアメタルサーバ)の通信には異常はない。

3.各クライアント間の通信に異常はない。

4.ネットワークスイッチ間の通信にも異常はない。VLANも正常に機能している。

 Hyper-Vを使って仮想サーバを昨年3月から運用開始しているが、こんなトラブルが昨年の5月から発生しているのだ。発生状況としては次の通り。

通信障害が発生した環境

1.再起動や電源OFFがなく、ある程度の期間稼働している状況で

2.クライアントから仮想サーバに対して比較的大きなデータ(数百MB~数GB程度)のデータを書き込んだ場合

 に発生している。

 いずれもベアメタルサーバを再起動すると解決する。

 昨年5月、電子カルテシステムアップデートをしようとしている途中に、突如こんな状況が発生。サーバを購入したベンダに連絡するが連休中のためエンジニアが不在。やむなくサーバを再起動すると、何事もなかったかのように稼働している。

 昨年8月にシステム拡張のため仮想サーバをもう一台増強。3台の仮想サーバを1台のHyper-Vホストで運用する。
 すると翌9月に2度。10月には3度も同じトラブルが発生した。さすがにこれはひどい。対策を探す。すると似たようなトラブルに悩まされている人がいた。

Virtual machines lose network connectivity when you use Broadcom NetXtreme 1-gigabit network adapters(Microsoft)

Broadcom NetXtreme 1 ギガビット ネットワーク アダプターを使用する場合、仮想マシン ネットワーク接続が切断される(Microsoft機械翻訳)

Windows Server 2012 Hyper-Vホスト上のWindows 2008 R2 SP1仮想マシンでrobocopyコマンド実行中両方のPing応答がなくなる(Dell Knowledge base)

Broadcom NetXtreme BCM5751チップ搭載 PCI-E x1用 Gigabit Ethernet(Amazonのカスタマーレビュー)

原因はBroadcomのチップセット