アカウント名:
パスワード:
ANAのシステムがダウンしたときはCiscoのスイッチ故障が原因で、世界初の珍しい原因だと強調していたけれど、ミッションクリティカルなシステムで使うスイッチの構成じゃないと思った。明らかに予算をケチったのが原因だろうと。
普通はスイッチが1台故障しても止まらないように構築するものだが、安くて機能不足のスイッチを使って障害時に自動的に切り替えるように作ったつもりになっていたところ、切り替わらなかったのが原因だったね。
人や技術にお金をかけない会社は、いつかしっぺ返しで損害を出したりするんだよ。
あの件ではそもそも冗長は取られてたし、事前テストでの問題洗い出しも行われていた。その上でシステム死亡時の代替手段も用意され訓練されていて実践までされたわけで。あれ以上が必要だというプレゼンができるというなら見せてほしいね。これでとにかく最高のものを使う以外ありませんとかこのメーカーしかありませんとか言いだすなら最悪の無能だぞ。
どんな冗長システムでも、死んだことを認識できない死に方(ANAの例のような不調系の死に方)をしたら自動的に切り替えるなんてできないし、本当の意味で万全な体制をとろうとするなら高位レイヤ側まで全部含めて対応するしかない。そんなことしたら機器更新のメンテナンスまで考えるとコストがとんでもないことになるのは明白で、そこまで金かけられるのは命かかってる系くらいなもん。所詮予約系システムだからあれでもかなり頑張ってた方だと思うがな。
強いて言えば今回の事象発生に対する対策としてはこのような手段も取り得たはずだ、なんてのは後出しだから言えるよなぁ。冗長や機能継続性のとり方はどこまでどれだけやるかは千差万別。いたずらにコストをかけることだけが正解ではない。手を抜けるところは抜くのもやり方。リスク評価やコストのすり合わせをきちんとやったうえで起きた障害ならそれは織り込み済みとすべき。
絶対障害の発生しないシステムは有り得ない。それであれば、どこに線を引くかが設計になる。
より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。
計算機科学者とは、壊れていないものを修理する人々のことである
ANAの障害の場合 (スコア:0)
ANAのシステムがダウンしたときはCiscoのスイッチ故障が原因で、世界初の珍しい原因だと強調していたけれど、ミッションクリティカルなシステムで使うスイッチの構成じゃないと思った。
明らかに予算をケチったのが原因だろうと。
普通はスイッチが1台故障しても止まらないように構築するものだが、安くて機能不足のスイッチを使って障害時に自動的に切り替えるように作ったつもりになっていたところ、切り替わらなかったのが原因だったね。
人や技術にお金をかけない会社は、いつかしっぺ返しで損害を出したりするんだよ。
Re: (スコア:2, 興味深い)
あの件ではそもそも冗長は取られてたし、事前テストでの問題洗い出しも行われていた。
その上でシステム死亡時の代替手段も用意され訓練されていて実践までされたわけで。
あれ以上が必要だというプレゼンができるというなら見せてほしいね。これでとにかく
最高のものを使う以外ありませんとかこのメーカーしかありませんとか言いだすなら
最悪の無能だぞ。
どんな冗長システムでも、死んだことを認識できない死に方(ANAの例のような不調系の
死に方)をしたら自動的に切り替えるなんてできないし、本当の意味で万全な体制を
とろうとするなら高位レイヤ側まで全部含めて対応するしかない。そんなことしたら
機器更新のメンテナンスまで考えるとコストがとんでもないことになるのは明白で、
そこまで金かけられるのは命かかってる系くらいなもん。所詮予約系システムだから
あれでもかなり頑張ってた方だと思うがな。
Re:ANAの障害の場合 (スコア:0)
強いて言えば今回の事象発生に対する対策としてはこのような手段も取り得たはずだ、なんてのは後出しだから言えるよなぁ。
冗長や機能継続性のとり方はどこまでどれだけやるかは千差万別。
いたずらにコストをかけることだけが正解ではない。手を抜けるところは抜くのもやり方。
リスク評価やコストのすり合わせをきちんとやったうえで起きた障害ならそれは織り込み済みとすべき。
絶対障害の発生しないシステムは有り得ない。
それであれば、どこに線を引くかが設計になる。