東証の売買停止で記者会見。ディスク装置の自動切り替えが機能しなかったのが原因 95
ストーリー by nagazou
だそうです 部門より
だそうです 部門より
東京証券取引所は1日の夕方に記者会見を行い、10月1日に発生した売買の終日停止についての説明を行った(【ノーカット】 東証、終日売買停止で会見[YouTube]、日経その1、日経その2)。
記者会見で説明を行った東京証券取引の横山CIOによれば、高速取引システム「アローヘッド」では、注文売買のためのネットワークと運用系のネットワークの2種類があり、そのうち運用系ネットワークに使われていた共有ディスク装置2台のうち1号機が、午前7時4分にメモリの不具合により故障を起こしたという。
本来であれば自動的に2号機に切り替わるはずだったが、これが機能しなかったとしている。この結果、情報配信ゲートウェイに異常が発生、相場情報の配信処理に異常が生じたとしている。また同時に売買監視用サーバーについても、監視処理に異常が発生したとしている。
システムを構築した富士通は、なぜ自動的に2号機に切り替わらなかったのかについて原因を究明するとしている。2日の取引は通常通り行われているが、当面は不具合が再発したときのために、人員を確保してディスク装置を監視する方針であるようだ。
なお、この会見で日本取引所グループ横山CIOの説明がシステムのことを理解した上で整然と話し、受け答えも正確で、富士通側に責任を転嫁しない対応をしているとしてTwitterでは話題になっていた模様(Togetter)。
記者会見で説明を行った東京証券取引の横山CIOによれば、高速取引システム「アローヘッド」では、注文売買のためのネットワークと運用系のネットワークの2種類があり、そのうち運用系ネットワークに使われていた共有ディスク装置2台のうち1号機が、午前7時4分にメモリの不具合により故障を起こしたという。
本来であれば自動的に2号機に切り替わるはずだったが、これが機能しなかったとしている。この結果、情報配信ゲートウェイに異常が発生、相場情報の配信処理に異常が生じたとしている。また同時に売買監視用サーバーについても、監視処理に異常が発生したとしている。
システムを構築した富士通は、なぜ自動的に2号機に切り替わらなかったのかについて原因を究明するとしている。2日の取引は通常通り行われているが、当面は不具合が再発したときのために、人員を確保してディスク装置を監視する方針であるようだ。
なお、この会見で日本取引所グループ横山CIOの説明がシステムのことを理解した上で整然と話し、受け答えも正確で、富士通側に責任を転嫁しない対応をしているとしてTwitterでは話題になっていた模様(Togetter)。
共有ストレージのメモリ故障で生殺しになり自動フェイルオーバーせず発生 (スコア:5, 参考になる)
サーバー設計者のプロの見立ては一般人とはだいぶ違うようです。
https://twitter.com/ippo_n/status/1311572556726509568 [twitter.com]
東証cioは誰?横山隆介の大学など学歴は?wiki [koregasiritai.com]
https://twitter.com/ippo_n/status/1311572556726509568 [twitter.com]
これらに対して読売新聞とか朝日新聞のたたきっぷりといったらないなと思った。
Re:共有ストレージのメモリ故障で生殺しになり自動フェイルオーバーせず発生 (スコア:1)
久々に「生殺し」を聞きました
昔Sun Microsystemsサーバーの冗長構成で常用系に障害が出るも
ハートビートは正常だったのでフェイルオーバーしなかったのを思い出しました
しかも主サービスは一見正常に動作していたためサービスを監視していてもNGという状況
生殺し は悪夢です
会見で感じたこと (スコア:4, 興味深い)
・東証側の説明が機能を理解した上で素人にも分かるよう適切にかみ砕いていて非常に判り易かった
・マスコミのITリテラシーは小学生以下だった
・マスコミは経営陣の感想にしか興味を持ってなかった
Re:会見で感じたこと (スコア:4, 興味深い)
うっかりプライマリー、セカンダリーと言ってしまう場面もありましたね
やはり一般向けには1号機、2号機じゃないと分からないみたいですね
Re:会見で感じたこと (スコア:4, おもしろおかしい)
マスター、スレイブだったら退任に追い込まれていたな。
Re:会見で感じたこと (スコア:1)
うっかりコロスと発言してしまったとかなんとか
Re: (スコア:0)
「スレイブを殺してマスターを生かす」とか、つい言っちゃいそうです。
Re:会見で感じたこと (スコア:1)
「マスターを殺してスレイブを昇格」とかだと今のポリコレ的にはアリなんだろうかw
Re: (スコア:0)
日本のポリコレは英語できないけど、英文メディアにアピールするためだけにノボリや幕だけ下手くそ英語使うので、問題ないです
Re: (スコア:0)
コロスは殺せない
Re: (スコア:0)
1号さん、2号さんとかな
Re:会見で感じたこと (スコア:1)
https://twitter.com/araizumiC/status/1311643051551453184 [twitter.com] によると、プライマリ/セカンダリそれぞれに1号機/2号機があるようです。
Re: (スコア:0)
> やはり一般向けには1号機、2号機じゃないと分からないみたいですね
号機ではナンバーを示すだけで優先順位とは関係ないから、プライマリ・セカンダリとは意味が違う。
Re: (スコア:0)
常用機と予備機なら順番があっても良いが、動作確認・整備の為順次切り替えて使い優先順位が無いなら、左号機・右号機(東西でも良い)にしないと。
# サヨッカー・マンナッカー・ウヨッカー(ゴールドライタン)、左大臣・右大臣に比べ内大臣は一ランク下の予備だったそうな(太政大臣は三大臣より上)。
Re:会見で感じたこと (スコア:1)
マンナッカーだけ生き残ったよな。
Re:会見で感じたこと (スコア:1)
紅白とか源平とか。
Re:会見で感じたこと (スコア:1)
Re:会見で感じたこと (スコア:1)
今回、故障した危機がアローヘッドの内か外かという質問の回答で350台のサーバーのあるシステムであると
説明してるとことか、アローヘッド全体に拡大して理不尽に叩かれないようにしてる。
こういうことを即時に判断して答えられるのは凄いな。
ほかの方もベンダーや顧客との対立構造にならないようになど、注意して回答をしているようで感心する。
後、記者の質問を聞いていると取引参加者はみんなパソコンの画面を眺めながら
マウスのクリックて一件一件取引してるというイメージを持ってるんじゃないかと思えてくる。
Re: (スコア:0)
Re: (スコア:0)
まあ突発的な事件事故だと専門性の高い記者を確保できないのはしゃあないでしょう。
会見を即座に開くのにはオープンで真摯な態度の表明の他に素人記者に来てほしいという願望もある。
Re:会見で感じたこと (スコア:1)
突発的な事件・事故に専門性の高い記者を派遣して価値のある紙面を作るのが新聞屋の仕事でしょ?
とりま素人記者を派遣して詳しい情報は後から……ってもうそれ新聞社じゃなくて旧聞社じゃん。
素人記者のせいで会見のレベルが下がってるし害悪でしかないから居ない方がマシなんですけど。
Re:会見で感じたこと (スコア:1)
まるで、突発的でなければ専門性の高い記者を確保できたかのような言い草だな。
Re: (スコア:0)
IT素人の妻娘が会見を見て、ほぼ同じ感想をもったそうな。
仕事中だったのであとで動画を見て得心。
Re: (スコア:0)
・マスコミのITリテラシーは小学生以下だった
こういう巨大システムトラブルは日経クロステックの「動かないコンピュータ」取材班の仕事だと思うけど、日経新聞の記者は来てても日経クロステックの記者は来てなかったのかな?
まあ,現状では最善を尽くしているような (スコア:3)
再起動で治るかもで中途半端に動くと不味いし,いままでのトラブル経験を生かした形での「終日取引停止」ですしねえ。
最後はシングル (スコア:2)
それが不調であって切り替えが必要と判定する部分を冗長化することは出来ないから
そこが逝かれるとシステムは維持できないということなのだろうな
高速取引システム「アローヘッド」 (スコア:0)
これは深刻なバイド汚染が原因ですね
どのレベルかなぁ… (スコア:0)
ディスク装置のめもりーの故障は、SSDが壊れたようなものなのか
それともキャッシュが壊れたのか。
いままでどれくらいの頻度で自動切り替えが起こっていたのか、
はじめての自動切換え だったりしないか...
いろいろ気になりますね。
Re:どのレベルかなぁ… (スコア:2, 興味深い)
arrowheadで使われてるストレージはETERNUS [fujitsu.com]だろうから、
イメージとしては、NASのメモリが死んだような感じ。
Re:どのレベルかなぁ… (スコア:1)
ETERNUSってそれも中身NetApp?
機種によって違うのかな。
NetAppなら、本体にOS入ってるのでそこでもメモリ使ってるし、
キャッシュ用にバッテリ付きメモリも挿せますね。
死んで切り替わらないところを見ると、後者なのでは?
システムのメモリが死んだら流石にフェイルオーバーしそう。
Re:どのレベルかなぁ… (スコア:1)
愛のメモリー
松崎しげる
彼の皮膚は自動切り替えが起きず
常に黒い
ストレージのメモリはECC化してないの? (スコア:0)
ECC化してたら、エラー検出・訂正が期待できたのに
Re: (スコア:0)
そんなことを言い出すとキリがありません
(と言うかプロのエンジニアたちが設計&運用しているシステムですよ?)
今以上の被害を出さないために、あえてシステムを止める。売買を終日停止する。翌日には問題なく復旧している。
エンジニアとしても経営者としても妥当な英断だったと思います
Re: (スコア:0)
思った。
でも共有ディスク装置ってのはNAS的な何かだとして、どこまでECC化する必要あるのかな。
NASのメモリはECCにするとして、ストレージ自体(SSD)にもキャッシュと制御目的のメモリが載っててそれもECC搭載できるのかな?
システムのあらゆるところにメモリはあるだろうけど、全部ECCにできるもんなのかな。
Re:ストレージのメモリはECC化してないの? (スコア:1)
SSDは冗長化しないと使い物になりませんしコントローラもECC対応しますよ
// CPU内のレジスタもECC化した例もどこかで聞いた
Re:ストレージのメモリはECC化してないの? (スコア:2)
ECCは「Error Correction Code」=「誤り訂正符号」の略。訂正しなかったらECCじゃない。
一方の8b/10bは、クロックを埋め込むためのもの(8bitの生データだと、オール0やオール1なんかでタイミングが取れなくなるので、ほどほどに0/1が変化するようにしたもの)で、エラー訂正機能なんかない。だから、「8b/10bエンコーディングみたいなもん」というのは大間違い。
ECCでは、たとえば32bitの場合ならは、プラス6ビットの38bitにする。32bitの入力全パターンに対して、「38bitのうち1bitだけ化けた」場合のデータも重複しないように、38bitパターンを割り当てることで、1bitの化けに対しては、化ける前のデータが確実に判明できるようにしてる。
38bitデータの1bit化けは38通りあるので、化けないものと併せると39通り。32bitの全パターン×39通りは6bit追加の64倍の空間に割り当てが可能になる。
追加5bitの32倍の空間では狭すぎて化けたパターンを重複なく割り当てることはできないので、32bitデータの1bit化けのエラー訂正のためにはプラス6bitが最低ラインってことになる。追加bitをもっと増やして2bitの化けに対しても重複しないように割り当てて2bitまでのビット化けを訂正可能にしたりすることもある。
ECCの定番のハミング符号は、この追加されたビットに数学的にパターンを割り当てており、論理回路レベルで機械的に訂正可能。
Re:ストレージのメモリはECC化してないの? (スコア:1)
そして修復機能のないECCはError Collection Codeだ(違
Re: (スコア:0)
ECCは宇宙線とかによる一時的なデータ化けに対する耐性なので、メモリがハードウェア的に壊れた場合はどうしようもない。
今回は、メモリ「故障」といってるので、データ化けじゃなくてハードウェア的に壊れたパターンでしょ。
Re: (スコア:0)
何を勘違いしてるのか知りませんが、ECCメモリは故障によるエラーを検出・訂正する技術ではないですよ?
うまく切り替わらないよなあ (スコア:0)
東証ほどの大きな組織ではないけど、富士通やNECのこの手のシステムを導入しているけど、障害時に謳い文句どおりにまともに切り替わったことがあまりない。
ハードウェア障害が起こっても、何事もなかったように業務システムを動かし続けるというのは、なかなか大変なことだと思う。
Re: (スコア:0)
そちらのシステムがどうかはわかりませんが、正常に切り替わるとそれはニュースにならないんですよ。
Re:うまく切り替わらないよなあ (スコア:2)
そうね。
概ね正常に切り替わるからこそ、フェイルオーバー失敗したら大変だよね。
なお、ちゃんとフェイルオーバーして何事もなかったように継続稼働していたために、
障害検知が漏れて切り替わった後の系が壊れたときに再フェイルオーバー出来なくて
障害になったケースは見たことある。
Re: (スコア:0)
構築するのにやたらコストかかるのにうまく動かない。常時稼働システムと言えば二重系みたいに教科書には書いてあるが、机上の空論でしかなかった。
Re: (スコア:0)
念のための確認だけど全ての障害が表面化してないわけじゃないよね?
うまく切り替わった場合は「当然」で組織内で障害扱いしてないと
うまく切り替わってない場合だけが記録に(記憶にも)残る。
--出しずらいとは思うけど24時間稼働のデータセンターのハードウェア故障の年間件数(or個数)とかの指標ってあったら一般人への説明に便利だねぇ
Re: (スコア:0)
すみません。テストのときはうまく切り替わったのですが…。
Re: (スコア:0)
切り替えスイッチが物理的に壊れる寸前までテストを繰り返してから本番に投入したのですが。
定地点(定時点)って通じないの? (スコア:0)
会見内で「一連の処理の流れの中で、定地点での処理に必要な情報…」と言った発言があったのですが
記者の方は定地点(定時点)という言葉に反応できずに理解不能に陥ってしまったようです。
一般には定地点(定時点)というのは通じない単語なのでしょうか?
(当該の場面は動画の19:30あたりから)
Re: (スコア:0)
定地点だと検索結果すら微妙だし、定地点・定時点ともに辞書にも載ってない。
定時点って日本取引所グループの社内用語っぽい。
太陽フレアでも出てんの? (スコア:0)
最近、クラウドとかでもシステム障害の話よく聞くけどなんでだろ。
候補
Re: (スコア:0)
10.天王星の逆行中で、間もなく水星も逆行を始めるから