アカウント名:
パスワード:
素人考えだと、スイッチを交換すればすぐ回復できそうなように思えます。
たぶん、ハブほど簡単に交換できるものじゃないのだろうとは思いますがこういった充分な資金力のある、大規模で信頼性が求められるシステムで
長時間、停止してしまうことを防ぐことはそれほど難しいことなのでしょうか?
switchに問題があることがわかれば、あとは簡単。代替機に交換って、きっと問題のあったswitchを落とすだけじゃないかな。ふつうだったら自動的にfail overすべきところを、「不安定な状態で動作していた」ためにそれができなかったように見える。
switchでもrouterでもSANでもそういうによくやられてる。
Ciscoのルーターで似たようなことは経験したことがありますが、何らかのエラーログは吐いていただろうし、トラフィックのグラフと合わせて追っていけば問題のあるSWを見つけるのはそれほど難しくないような気もします。あくまで日頃からログの管理をしていればですが。
kernelレベルのバグだと、ログを見ても、何も原因が出力されないことが多いかと思います。既に買収されたB社のL3スイッチでMACテーブルが不定期に破損するというバグにあたったことがありますが、問題が発生してもログには何も出ないし、コマンドからMACを確認しても、確認コマンドをトリガとして問題が解消されるのでコマンド結果からも異常が確認できない。
スイッチのブートコードをデバッグ用のコードに置き換えて、はじめて原因が分かったけど、そこに至るまでに相当時間がかかった。
1カ月と経たず復旧してるので規模からしたら迅速と言えるのでは?
日常的な不具合でもログを吐かない、痕跡がすぐにはわからないものなんてざらにあるのに、SW不具合起因であればなおさら。日ごろからデバッグ解析やる?
それほど難しいです。
> トラフィックのグラフと合わせて追っていけば
mrtg/rrd的なもののことを言っているのだと思いますが、グラフが異常な値(スループット低下)を見つけたとして、 サーバーが不調だからスループットが落ちたのか、 スループットが落ちたからサーバー不調なのか、判断できるのでしょうか。サーバーは悪くない、悪いのはL2/L3スイッチ側だ、それが分かった後であれば、探すのは簡単でしょうね。
より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。
身近な人の偉大さは半減する -- あるアレゲ人
素人にわかるように、解決の難しさを教えて (スコア:0)
素人考えだと、スイッチを交換すればすぐ回復できそうなように思えます。
たぶん、ハブほど簡単に交換できるものじゃないのだろうとは思いますが
こういった充分な資金力のある、大規模で信頼性が求められるシステムで
長時間、停止してしまうことを防ぐことは
それほど難しいことなのでしょうか?
Re: (スコア:0)
switchに問題があることがわかれば、あとは簡単。
代替機に交換って、きっと問題のあったswitchを落とすだけじゃないかな。
ふつうだったら自動的にfail overすべきところを、
「不安定な状態で動作していた」ためにそれができなかったように見える。
switchでもrouterでもSANでもそういうによくやられてる。
Re:素人にわかるように、解決の難しさを教えて (スコア:0)
Ciscoのルーターで似たようなことは経験したことがありますが、何らかのエラーログは吐いていただろうし、
トラフィックのグラフと合わせて追っていけば問題のあるSWを見つけるのはそれほど難しくないような気もします。
あくまで日頃からログの管理をしていればですが。
Re:素人にわかるように、解決の難しさを教えて (スコア:1)
kernelレベルのバグだと、ログを見ても、何も原因が出力されないことが多いかと思います。
既に買収されたB社のL3スイッチでMACテーブルが不定期に破損するというバグにあたったことがありますが、問題が発生してもログには何も出ないし、コマンドからMACを確認しても、確認コマンドをトリガとして問題が解消されるのでコマンド結果からも異常が確認できない。
スイッチのブートコードをデバッグ用のコードに置き換えて、はじめて原因が分かったけど、そこに至るまでに相当時間がかかった。
Re: (スコア:0)
1カ月と経たず復旧してるので規模からしたら迅速と言えるのでは?
Re: (スコア:0)
日常的な不具合でもログを吐かない、痕跡がすぐにはわからないものなんてざらにあるのに、SW不具合起因であればなおさら。
日ごろからデバッグ解析やる?
それほど難しいです。
Re: (スコア:0)
> トラフィックのグラフと合わせて追っていけば
mrtg/rrd的なもののことを言っているのだと思いますが、
グラフが異常な値(スループット低下)を見つけたとして、
サーバーが不調だからスループットが落ちたのか、
スループットが落ちたからサーバー不調なのか、
判断できるのでしょうか。
サーバーは悪くない、悪いのはL2/L3スイッチ側だ、
それが分かった後であれば、探すのは簡単でしょうね。