アカウント名:
パスワード:
東証によると、1号機が何らかの理由でダウンした場合に2号機に自動で切り替わることは システム稼働前のテストで設計・開発した富士通とともに確認していた。 しかし今回、障害の原因を調べたところ、メモリー故障を理由として1号機が機能不全となった場合に、 2号機に自動で切り替わらないことが分かったという テストは富士通が主体となって実施しており、メモリーそのものを物理的に破壊するような実験はせず、 「疑似的に1号機の機能を喪失させるテストを実施し、2号機に切り替わることは確認していた」 なぜメモリ
OSは生きていて、ハートビートは返ってくるので生きていると思ったら、肝心のディスク周りがハングアップっていうことかな?と思っていたら、故障した1号機は自分が故障していて切り替えが必要ってことは自覚(?)していたらしい。ただ説明図を見ても「切り替え用設定値」ってなんの値だろう?とか「設定された値では切り替えができず」ってどういうことだろう、故障は検知したのに、その設定値によっては故障と見なさないのか?と疑問が湧いてしまい、かえってモヤモヤ…
その設定値のオン・オフで実際にバックアップに切り替えるかを判断するような印象を受けます。
デフォルトはどっちだ!?意図的に無効にしたのか、有効にするのを忘れたのか。デフォルトでメモリ障害だけ切り替わらない設定は変な気がする。そんな単純な話ではなくて、様々な設定の組み合わせで、結果的にメモリ障害だけ切り替わらなくなってしまっていたとかかな?
メモリのSEUによる好ましくないフェイルオーバーを嫌った可能性は?
オン・オフだけじゃなくて、0:オフ、1:本番用、2:テストA、3:テストB、…、みたいな
故障発見時の動作設定1.自動2.担当者の判断が必要(誰でもいいので切り替えOKボタンを押す)3.責任者の判断が必要(加えて、パスワード入力が必要)4.社長判断が必要(加えて、稟議書番号入力が必要:決済済みかの判断はネットワークで行う)
デフォルトは4番
いや、メモリ故障のアラームパターンを登録してなかったって話だろうエラーレベルだけで切り替える訳じゃないのは判らんでもない
何でもかんでも登録してたら今度は誤検知のリスクが上がるしな
より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。
日々是ハック也 -- あるハードコアバイナリアン
原因 (スコア:4, 興味深い)
Re:原因 (スコア:1)
OSは生きていて、ハートビートは返ってくるので生きていると思ったら、肝心のディスク周りがハングアップっていうことかな?と思っていたら、故障した1号機は自分が故障していて切り替えが必要ってことは自覚(?)していたらしい。
ただ説明図を見ても「切り替え用設定値」ってなんの値だろう?とか「設定された値では切り替えができず」ってどういうことだろう、故障は検知したのに、その設定値によっては故障と見なさないのか?と疑問が湧いてしまい、かえってモヤモヤ…
Re: (スコア:0)
その設定値のオン・オフで実際にバックアップに切り替えるかを
判断するような印象を受けます。
Re: (スコア:0)
デフォルトはどっちだ!?意図的に無効にしたのか、有効にするのを忘れたのか。
デフォルトでメモリ障害だけ切り替わらない設定は変な気がする。
そんな単純な話ではなくて、様々な設定の組み合わせで、結果的にメモリ障害だけ切り替わらなくなってしまっていたとかかな?
Re: (スコア:0)
メモリのSEUによる好ましくないフェイルオーバーを嫌った可能性は?
Re: (スコア:0)
オン・オフだけじゃなくて、0:オフ、1:本番用、2:テストA、3:テストB、…、みたいな
Re: (スコア:0)
故障発見時の動作設定
1.自動
2.担当者の判断が必要(誰でもいいので切り替えOKボタンを押す)
3.責任者の判断が必要(加えて、パスワード入力が必要)
4.社長判断が必要(加えて、稟議書番号入力が必要:決済済みかの判断はネットワークで行う)
デフォルトは4番
Re: (スコア:0)
いや、メモリ故障のアラームパターンを登録してなかったって話だろう
エラーレベルだけで切り替える訳じゃないのは判らんでもない
Re: (スコア:0)
何でもかんでも登録してたら今度は誤検知のリスクが上がるしな