パスワードを忘れた? アカウント作成
この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。

東証で障害発生し、全銘柄の売買が停止中」記事へのコメント

  • by Anonymous Coward on 2020年10月01日 13時49分 (#3898561)

    東証システム障害、機器故障原因か 初の終日売買停止に
    https://news.yahoo.co.jp/articles/b33ee23afcb0107687da521d2cb3056357d917ba [yahoo.co.jp]

    > サイバー攻撃やプログラムの不具合ではなく、機器の故障の可能性があるとみて詳細を調べている。

    • by Anonymous Coward on 2020年10月01日 14時23分 (#3898582)

      近年はl、ストレージのファームウェアのバグによるトラブルがすごく増えてる
      ストレージの高機能化、ストレージファームウェアの肥大化により、
      バグがたくさん紛れ込むようになった

      また再現性不明、再起動したら治ったとか、もはやストレージのファームウェアをハードウェア扱いするのではなく、
      ソフトウェア扱いしてシステム構築する必要がある

      親コメント
      • そうなんだよねぇ~
        システムとしての信頼性を考えた時に、エタ吉を選択するべきかマジで悩む時代になった。
        中途半端に【生きている】ように見えるけど毒を吐く状態の装置って最悪。

        #E3kの頃がある意味ちょうどよかったのかなぁ。GRは色々イワクつきだったし…
        親コメント
      • by Anonymous Coward

        まあ実際、ストレージ製品の最終的なコントローラ部は単なるサーバみたいな物だからね

      • by Anonymous Coward

        ソフトウェア扱いしたくてもブラックボックスじゃどうしようもないのでは・・・

    • by Anonymous Coward

      冗長構成になっとらんのか・・・

      • by Anonymous Coward

        ニュースとか見る限りでは、ロクに切り替え試験やってませんでした系のトラブルに見えますね…。

        • NHKで途中まで生中継していた記者会見では他のどの部分と関連付けされる
          能書きであるのかよくわからない要質問な(TVではこの部分の質問はなかった)

          「教育」だか「トレーニング」というサブシステムと思われる話題が一言
          あったがそうやって「ごくたまに切り替えることもある」程度なのかと...

          親コメント
          • by Anonymous Coward

            多分「トレーニング」の部分は聞き間違いで「トレーディング」サーバーと言ってたかと
            (いや、私も最初はトレーニングに聞き間違えてて、何か整合性が取れないなと考え直して後で気が付いたんですが)

            • >多分「トレーニング」の部分は聞き間違いで「トレーディング」サーバーと言ってたかと

              多謝。
              そっちの方が筋が通っています。

              それ以上の口頭説明も質疑もなかったようなので
              障害インシデントの根幹とはほとんど関係ない瑣末な枝葉ということか。

              親コメント
        • by Anonymous Coward

          会見ではフェイルオーバーのテストはしててうまく行ってたけど、駄目なタイミングや条件があったんじゃないだろうかって話だった。

        • by Anonymous Coward

          ハード障害だと壊れ方によっては切り替わらない事があるのが、そういうのは試験では再現出来ないからね。

          • by Anonymous Coward

            冗長システムそのものの制約とか限界はどうしようもないですからね…。
            「完璧な冗長化は存在しない」ってのがわかっているかどうかであの会見の印象変わるんだろうな。

        • by Anonymous Coward

          切り替えの試験自体はやってたんだろうけど、今回はメモリ故障ということなので、
          完全に死に切らずにゾンビ状態だったんでしょうね。
          IOは異常だけど、ハートビートは正常みたいな。

          こういうのは、外部からIOエラー率とかを監視して、異常を検知したらIPMIとか使って電源の強制遮断までやらないといけない。
          (Fencingとか、STONITH (Shoot The Other Node In The Head)とかって言われるやつ)

      • by Anonymous Coward

        重要システムは、正副を固定せず、
        月1回くらい正副を切り替えて運用したほうがいい

        正系がトラブル時に切り替え失敗とか結構あるからな

身近な人の偉大さは半減する -- あるアレゲ人

処理中...