SSブログ

Hyper-V環境で、Broadcomチップセットを使用していると仮想サーバのネットワーク障害が発生する件 [医療情報技師というお仕事]

 たまには仕事のことを・・。

 ちょうど一年前、大規模なシステム入れ替えを行なったのだが、ここのところ上記のことに悩まされていたのである。

 通信障害に。

通信障害の具体的な状況

 具体的には以下のようになる。
1.仮想サーバ群のネットワークが切断され、各クライアントから通信出来なくなる。1台の仮想サーバで発生し始めると、同一Hyper-Vホスト内の、その他のサーバにも波及する。

2.Hyper-Vホスト(ベアメタルサーバ)の通信には異常はない。

3.各クライアント間の通信に異常はない。

4.ネットワークスイッチ間の通信にも異常はない。VLANも正常に機能している。

 Hyper-Vを使って仮想サーバを昨年3月から運用開始しているが、こんなトラブルが昨年の5月から発生しているのだ。発生状況としては次の通り。

通信障害が発生した環境

1.再起動や電源OFFがなく、ある程度の期間稼働している状況で

2.クライアントから仮想サーバに対して比較的大きなデータ(数百MB~数GB程度)のデータを書き込んだ場合

 に発生している。

 いずれもベアメタルサーバを再起動すると解決する。

 昨年5月、電子カルテシステムアップデートをしようとしている途中に、突如こんな状況が発生。サーバを購入したベンダに連絡するが連休中のためエンジニアが不在。やむなくサーバを再起動すると、何事もなかったかのように稼働している。

 昨年8月にシステム拡張のため仮想サーバをもう一台増強。3台の仮想サーバを1台のHyper-Vホストで運用する。
 すると翌9月に2度。10月には3度も同じトラブルが発生した。さすがにこれはひどい。対策を探す。すると似たようなトラブルに悩まされている人がいた。

Virtual machines lose network connectivity when you use Broadcom NetXtreme 1-gigabit network adapters(Microsoft)

Broadcom NetXtreme 1 ギガビット ネットワーク アダプターを使用する場合、仮想マシン ネットワーク接続が切断される(Microsoft機械翻訳)

Windows Server 2012 Hyper-Vホスト上のWindows 2008 R2 SP1仮想マシンでrobocopyコマンド実行中両方のPing応答がなくなる(Dell Knowledge base)

Broadcom NetXtreme BCM5751チップ搭載 PCI-E x1用 Gigabit Ethernet(Amazonのカスタマーレビュー)

原因はBroadcomのチップセット

 どうやらネットワークチップセットとファームウェア、ドライバ、そして運用状況が合わさってこのようなトラブルが起こっているようである。

 どうも2014-5年くらいに出たBroadcomのチップは、ネットワークをトランキング(複数のネットワークポートを束ねて帯域増加と冗長性を確保する技術)するとこの手のトラブルが発生するようで、WindowsでもFreeBSDでも発生しているようであった。
対策としては、

1.ファームウェアとドライバを最新のものにする

2.それでもだめならネットワーク設定のVMQ(VirtualMachineQueue)を解除する

 VMQは仮想サーバ間の通信を高速化する技術のため、ネットワークのパフォーマンスが落ちる。第一選択は1の対策済みのドライバとファームウェアを導入することとなる。

160605broadcom1.jpg
ファームウェア

160605broadcom2.jpg
ドライバ

160605broadcom3.jpg
ネットワークドライバのタイムスタンプ

 さてこれでめでたしめでたし。サーバを起動し直して終了だ。

あれ、また?

 12月に、またも同じようなネットワーク障害が起こる。頻度は減ったけど、トラブルは解決していないのでは?

 1月、娘の誕生日で早めに帰る。そしてレストランで食事会をしている最中に電話が鳴る。まただ。電話で再起動の手順を指示し、事なきを得るが、もう食事どころではない。

 上記2のVMQをOFFにする。高速化技術がネットワーク障害を生むのであれば本末転倒だ。

160605broadcom4.jpg
使っているネットワークポートをデバイスマネジャーから選択し

 ここのチェックをDisableにする。

 これでよし。

 ネットワークパフォーマンスはどうであろうか。
 バックアップ時の処理速度等から考えて、まあ、早くはならないのは当たり前にしても、特段遅いというわけでもない。許容範囲ではある。

 そして1月末の対策からおおよそ半年。それ以降は同じ問題は起こっていない。心の中にちょっと引っかかるものがあるが、まあ、これでいいか。

Broadcomは大丈夫か

 サーバ用ソリューションとして結構なシェアのあるBroadcom。私の遭遇したトラブルは、結構メジャーなもののようである。特殊な環境下で発生する事象ではあるが、サーバのネットワークを冗長化するのは当たり前なので、このような構成でトラブルが発生するのはいかがかと思うのだ。

 2002年だったか。この頃製造された台湾製の電解コンデンサに不良が多発した事件があった。使用していた各種コンピュータメーカーはリコール対策に追われた。
 富士通などはこれを機にハードディスク事業から撤退してしまったほどだ。
 エンタープライズ製品での採用も多いBroadcom。問題発覚から1年。今のところ大きなニュースにはなっていないけれど、こんな調子で大丈夫か。ただでさえ少ないエンタープライズ製品の会社が、こんなところで撤退とならなければいいのだが。
nice!(30)  コメント(4)  トラックバック(0) 
共通テーマ:仕事

nice! 30

コメント 4

ponnta1351

ご無沙汰してます。
先日ららぽーとの記事を拝見、月曜に西武線とモノレールを利用して行ってきました。凄く広いですね。
フロアーがカーペットなので歩きやすいし椅子もあちらこちらにあってウインドウショッピングに絶好ですね。
前記事を参考しさせて頂き、免許は返納してしまったので今度は亭主の車で行ってみます。
私たちはサルバトーレクオモで食事をしました。九龍の前は長蛇の列でした。
by ponnta1351 (2016-06-08 07:12) 

Mosel

ponntaさん。こちらこそご無沙汰です。最近月刊のペースで更新しています(困)。
ららぽーと、広いですね。私の自宅からは自転車でも行ける距離なので、子どもがよく行っていますよ。車で行くと、立飛会社の敷地に入ってしまうレーンがいくつかあるので困りものですが。
サルバトーレクオモもいつも混んでいますね。有名店ですからね。
by Mosel (2016-06-09 09:41) 

cheese999

IT系の製品って、日進月歩しているけど、枯れないというか、安定しないというか。。いつも問題山積ですね(^_0)ノ
by cheese999 (2016-06-11 06:00) 

Mosel

そうなんですよね。新しいチップが出るのはいいんですが、こんな訳のわからないトラブルが発生する。対処法がわかれば何てことはないんですが。
強制アップデートが物議を醸しているWindows10も、スタートメニューのトラブルがあちこちで起きているし。
by Mosel (2016-06-11 06:55) 

コメントを書く

お名前:
URL:
コメント:
画像認証:
下の画像に表示されている文字を入力してください。

トラックバック 0

この広告は前回の更新から一定期間経過したブログに表示されています。更新すると自動で解除されます。