アカウント名:
パスワード:
東証システム障害、機器故障原因か 初の終日売買停止にhttps://news.yahoo.co.jp/articles/b33ee23afcb0107687da521d2cb3056357d917ba [yahoo.co.jp]
> サイバー攻撃やプログラムの不具合ではなく、機器の故障の可能性があるとみて詳細を調べている。
近年はl、ストレージのファームウェアのバグによるトラブルがすごく増えてるストレージの高機能化、ストレージファームウェアの肥大化により、バグがたくさん紛れ込むようになった
また再現性不明、再起動したら治ったとか、もはやストレージのファームウェアをハードウェア扱いするのではなく、ソフトウェア扱いしてシステム構築する必要がある
まあ実際、ストレージ製品の最終的なコントローラ部は単なるサーバみたいな物だからね
ソフトウェア扱いしたくてもブラックボックスじゃどうしようもないのでは・・・
冗長構成になっとらんのか・・・
ニュースとか見る限りでは、ロクに切り替え試験やってませんでした系のトラブルに見えますね…。
NHKで途中まで生中継していた記者会見では他のどの部分と関連付けされる能書きであるのかよくわからない要質問な(TVではこの部分の質問はなかった)
「教育」だか「トレーニング」というサブシステムと思われる話題が一言あったがそうやって「ごくたまに切り替えることもある」程度なのかと...
多分「トレーニング」の部分は聞き間違いで「トレーディング」サーバーと言ってたかと(いや、私も最初はトレーニングに聞き間違えてて、何か整合性が取れないなと考え直して後で気が付いたんですが)
>多分「トレーニング」の部分は聞き間違いで「トレーディング」サーバーと言ってたかと
多謝。そっちの方が筋が通っています。
それ以上の口頭説明も質疑もなかったようなので障害インシデントの根幹とはほとんど関係ない瑣末な枝葉ということか。
会見ではフェイルオーバーのテストはしててうまく行ってたけど、駄目なタイミングや条件があったんじゃないだろうかって話だった。
ハード障害だと壊れ方によっては切り替わらない事があるのが、そういうのは試験では再現出来ないからね。
冗長システムそのものの制約とか限界はどうしようもないですからね…。「完璧な冗長化は存在しない」ってのがわかっているかどうかであの会見の印象変わるんだろうな。
切り替えの試験自体はやってたんだろうけど、今回はメモリ故障ということなので、完全に死に切らずにゾンビ状態だったんでしょうね。IOは異常だけど、ハートビートは正常みたいな。
こういうのは、外部からIOエラー率とかを監視して、異常を検知したらIPMIとか使って電源の強制遮断までやらないといけない。(Fencingとか、STONITH (Shoot The Other Node In The Head)とかって言われるやつ)
重要システムは、正副を固定せず、月1回くらい正副を切り替えて運用したほうがいい
正系がトラブル時に切り替え失敗とか結構あるからな
それ、うちでは「座布団ひっくり返しといて」といえば現場に通じました
より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。
身近な人の偉大さは半減する -- あるアレゲ人
危機もとい機器故障とか (スコア:0)
東証システム障害、機器故障原因か 初の終日売買停止に
https://news.yahoo.co.jp/articles/b33ee23afcb0107687da521d2cb3056357d917ba [yahoo.co.jp]
> サイバー攻撃やプログラムの不具合ではなく、機器の故障の可能性があるとみて詳細を調べている。
Re:危機もとい機器故障とか (スコア:1)
近年はl、ストレージのファームウェアのバグによるトラブルがすごく増えてる
ストレージの高機能化、ストレージファームウェアの肥大化により、
バグがたくさん紛れ込むようになった
また再現性不明、再起動したら治ったとか、もはやストレージのファームウェアをハードウェア扱いするのではなく、
ソフトウェア扱いしてシステム構築する必要がある
Re:危機もとい機器故障とか (スコア:1)
システムとしての信頼性を考えた時に、エタ吉を選択するべきかマジで悩む時代になった。
中途半端に【生きている】ように見えるけど毒を吐く状態の装置って最悪。
#E3kの頃がある意味ちょうどよかったのかなぁ。GRは色々イワクつきだったし…
Re: (スコア:0)
まあ実際、ストレージ製品の最終的なコントローラ部は単なるサーバみたいな物だからね
Re: (スコア:0)
ソフトウェア扱いしたくてもブラックボックスじゃどうしようもないのでは・・・
Re: (スコア:0)
冗長構成になっとらんのか・・・
Re: (スコア:0)
ニュースとか見る限りでは、ロクに切り替え試験やってませんでした系のトラブルに見えますね…。
Re:危機もとい機器故障とか (スコア:1)
NHKで途中まで生中継していた記者会見では他のどの部分と関連付けされる
能書きであるのかよくわからない要質問な(TVではこの部分の質問はなかった)
「教育」だか「トレーニング」というサブシステムと思われる話題が一言
あったがそうやって「ごくたまに切り替えることもある」程度なのかと...
Re: (スコア:0)
多分「トレーニング」の部分は聞き間違いで「トレーディング」サーバーと言ってたかと
(いや、私も最初はトレーニングに聞き間違えてて、何か整合性が取れないなと考え直して後で気が付いたんですが)
Re:危機もとい機器故障とか (スコア:1)
>多分「トレーニング」の部分は聞き間違いで「トレーディング」サーバーと言ってたかと
多謝。
そっちの方が筋が通っています。
それ以上の口頭説明も質疑もなかったようなので
障害インシデントの根幹とはほとんど関係ない瑣末な枝葉ということか。
Re: (スコア:0)
会見ではフェイルオーバーのテストはしててうまく行ってたけど、駄目なタイミングや条件があったんじゃないだろうかって話だった。
Re: (スコア:0)
ハード障害だと壊れ方によっては切り替わらない事があるのが、そういうのは試験では再現出来ないからね。
Re: (スコア:0)
冗長システムそのものの制約とか限界はどうしようもないですからね…。
「完璧な冗長化は存在しない」ってのがわかっているかどうかであの会見の印象変わるんだろうな。
Re: (スコア:0)
切り替えの試験自体はやってたんだろうけど、今回はメモリ故障ということなので、
完全に死に切らずにゾンビ状態だったんでしょうね。
IOは異常だけど、ハートビートは正常みたいな。
こういうのは、外部からIOエラー率とかを監視して、異常を検知したらIPMIとか使って電源の強制遮断までやらないといけない。
(Fencingとか、STONITH (Shoot The Other Node In The Head)とかって言われるやつ)
Re: (スコア:0)
重要システムは、正副を固定せず、
月1回くらい正副を切り替えて運用したほうがいい
正系がトラブル時に切り替え失敗とか結構あるからな
Re: (スコア:0)
それ、うちでは「座布団ひっくり返しといて」といえば現場に通じました
Re:危機もとい機器故障とか (スコア:1)