アカウント名:
パスワード:
素人考えだと、スイッチを交換すればすぐ回復できそうなように思えます。
たぶん、ハブほど簡単に交換できるものじゃないのだろうとは思いますがこういった充分な資金力のある、大規模で信頼性が求められるシステムで
長時間、停止してしまうことを防ぐことはそれほど難しいことなのでしょうか?
switchに問題があることがわかれば、あとは簡単。代替機に交換って、きっと問題のあったswitchを落とすだけじゃないかな。ふつうだったら自動的にfail overすべきところを、「不安定な状態で動作していた」ためにそれができなかったように見える。
switchでもrouterでもSANでもそういうによくやられてる。
Ciscoのルーターで似たようなことは経験したことがありますが、何らかのエラーログは吐いていただろうし、トラフィックのグラフと合わせて追っていけば問題のあるSWを見つけるのはそれほど難しくないような気もします。あくまで日頃からログの管理をしていればですが。
> トラフィックのグラフと合わせて追っていけば
mrtg/rrd的なもののことを言っているのだと思いますが、グラフが異常な値(スループット低下)を見つけたとして、 サーバーが不調だからスループットが落ちたのか、 スループットが落ちたからサーバー不調なのか、判断できるのでしょうか。サーバーは悪くない、悪いのはL2/L3スイッチ側だ、それが分かった後であれば、探すのは簡単でしょうね。
より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。
コンピュータは旧約聖書の神に似ている、規則は多く、慈悲は無い -- Joseph Campbell
素人にわかるように、解決の難しさを教えて (スコア:0)
素人考えだと、スイッチを交換すればすぐ回復できそうなように思えます。
たぶん、ハブほど簡単に交換できるものじゃないのだろうとは思いますが
こういった充分な資金力のある、大規模で信頼性が求められるシステムで
長時間、停止してしまうことを防ぐことは
それほど難しいことなのでしょうか?
Re: (スコア:0)
switchに問題があることがわかれば、あとは簡単。
代替機に交換って、きっと問題のあったswitchを落とすだけじゃないかな。
ふつうだったら自動的にfail overすべきところを、
「不安定な状態で動作していた」ためにそれができなかったように見える。
switchでもrouterでもSANでもそういうによくやられてる。
Re: (スコア:0)
Ciscoのルーターで似たようなことは経験したことがありますが、何らかのエラーログは吐いていただろうし、
トラフィックのグラフと合わせて追っていけば問題のあるSWを見つけるのはそれほど難しくないような気もします。
あくまで日頃からログの管理をしていればですが。
Re:素人にわかるように、解決の難しさを教えて (スコア:0)
> トラフィックのグラフと合わせて追っていけば
mrtg/rrd的なもののことを言っているのだと思いますが、
グラフが異常な値(スループット低下)を見つけたとして、
サーバーが不調だからスループットが落ちたのか、
スループットが落ちたからサーバー不調なのか、
判断できるのでしょうか。
サーバーは悪くない、悪いのはL2/L3スイッチ側だ、
それが分かった後であれば、探すのは簡単でしょうね。