パスワードを忘れた? アカウント作成
この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。

1日の東京証券取引所の障害、バックアップへの切り替え失敗は設定値のミス」記事へのコメント

  • 原因 (スコア:4, 興味深い)

    by NOBAX (21937) on 2020年10月07日 14時33分 (#3902212)

    東証によると、1号機が何らかの理由でダウンした場合に2号機に自動で切り替わることは
    システム稼働前のテストで設計・開発した富士通とともに確認していた。
    しかし今回、障害の原因を調べたところ、メモリー故障を理由として1号機が機能不全となった場合に、
    2号機に自動で切り替わらないことが分かったという
    テストは富士通が主体となって実施しており、メモリーそのものを物理的に破壊するような実験はせず、
    「疑似的に1号機の機能を喪失させるテストを実施し、2号機に切り替わることは確認していた」
    なぜメモリー故障の際に2号機に切り替わらなかったのか、今後検証を進める。
    (日経新聞より [nikkei.com])

    とのことです。
    異常処理のテストをどこまでやるかというのはなかなか難問で、
    実際に機器を故障させてテストをするというケースは少ないのではないでしょうか。

    • Re:原因 (スコア:5, 興味深い)

      by Takahiro_Chou (21972) on 2020年10月07日 14時54分 (#3902230) 日記

      そう言や、昔、担当した仕事で、テスト中にデータバックアップ用の磁気テープに不良品が混ってる事が発覚。その時、関係者の1人が一言、
      「返品するな。データバックアップ失敗のケースの運用テストに使う」

      親コメント
    • by hjmhjm (39921) on 2020年10月08日 19時46分 (#3903267)

      富士通に責任はない、と話してたけど、ちょっと風向きが変わるのかな?
      重過失ではないにしても、テストが充分ではなかった、となるのもやむなしなような。

      親コメント
    • by Anonymous Coward on 2020年10月07日 14時44分 (#3902224)

      OSは生きていて、ハートビートは返ってくるので生きていると思ったら、肝心のディスク周りがハングアップっていうことかな?と思っていたら、故障した1号機は自分が故障していて切り替えが必要ってことは自覚(?)していたらしい。
      ただ説明図を見ても「切り替え用設定値」ってなんの値だろう?とか「設定された値では切り替えができず」ってどういうことだろう、故障は検知したのに、その設定値によっては故障と見なさないのか?と疑問が湧いてしまい、かえってモヤモヤ…

      親コメント
      • by Anonymous Coward

        その設定値のオン・オフで実際にバックアップに切り替えるかを
        判断するような印象を受けます。

        • by Anonymous Coward

          デフォルトはどっちだ!?意図的に無効にしたのか、有効にするのを忘れたのか。
          デフォルトでメモリ障害だけ切り替わらない設定は変な気がする。
          そんな単純な話ではなくて、様々な設定の組み合わせで、結果的にメモリ障害だけ切り替わらなくなってしまっていたとかかな?

          • by Anonymous Coward

            メモリのSEUによる好ましくないフェイルオーバーを嫌った可能性は?

        • by Anonymous Coward

          オン・オフだけじゃなくて、0:オフ、1:本番用、2:テストA、3:テストB、…、みたいな

      • by Anonymous Coward

        故障発見時の動作設定
        1.自動
        2.担当者の判断が必要(誰でもいいので切り替えOKボタンを押す)
        3.責任者の判断が必要(加えて、パスワード入力が必要)
        4.社長判断が必要(加えて、稟議書番号入力が必要:決済済みかの判断はネットワークで行う)

        デフォルトは4番

      • by Anonymous Coward

        いや、メモリ故障のアラームパターンを登録してなかったって話だろう
        エラーレベルだけで切り替える訳じゃないのは判らんでもない

        • by Anonymous Coward

          何でもかんでも登録してたら今度は誤検知のリスクが上がるしな

    • 異常処理のテストをどこまでやるかというのはなかなか難問で、

      実際に機器を故障させてテストをするというケースは少ないのではないでしょうか。

      1日に3兆円の取引をするシステムなんだからいろんなテストをやっても全然ペイできると思うんだけどな
      しかも24時間運用ってわけでもないし

      • by Anonymous Coward on 2020年10月07日 17時03分 (#3902353)

        テスト自体はやることに超したことはないですが、小規模なシステムならともかく
        大規模なシステムで網羅的にやるのは不可能に近いような。
        特に今回みたくハードウェアに起因するようなものの場合、そもそもそれって
        再現させられるの……?って話もありますしね。

        なので、障害の早期検知と対応の迅速化とか影響範囲の最小化が方向性としては
        とるべき道なのかなとも思いますね。

        ただ、今回の件の場合どの時間までに復旧していれば全日取引不能にならなかった
        のかわかりませんが……。

        親コメント
    • by Anonymous Coward

      実機に余裕があればできるけど客先のだけだったらシミュレーションで済ますのかも。
      設定値を変更してテストして元に戻すのを忘れたとか…ナンテ

アレゲはアレゲ以上のなにものでもなさげ -- アレゲ研究家

処理中...