パスワードを忘れた? アカウント作成
14656290 story
お金

東証の売買停止で記者会見。ディスク装置の自動切り替えが機能しなかったのが原因 95

ストーリー by nagazou
だそうです 部門より
東京証券取引所は1日の夕方に記者会見を行い、10月1日に発生した売買の終日停止についての説明を行った(【ノーカット】 東証、終日売買停止で会見[YouTube]日経その1日経その2)。

記者会見で説明を行った東京証券取引の横山CIOによれば、高速取引システム「アローヘッド」では、注文売買のためのネットワークと運用系のネットワークの2種類があり、そのうち運用系ネットワークに使われていた共有ディスク装置2台のうち1号機が、午前7時4分にメモリの不具合により故障を起こしたという。

本来であれば自動的に2号機に切り替わるはずだったが、これが機能しなかったとしている。この結果、情報配信ゲートウェイに異常が発生、相場情報の配信処理に異常が生じたとしている。また同時に売買監視用サーバーについても、監視処理に異常が発生したとしている。

システムを構築した富士通は、なぜ自動的に2号機に切り替わらなかったのかについて原因を究明するとしている。2日の取引は通常通り行われているが、当面は不具合が再発したときのために、人員を確保してディスク装置を監視する方針であるようだ。

なお、この会見で日本取引所グループ横山CIOの説明がシステムのことを理解した上で整然と話し、受け答えも正確で、富士通側に責任を転嫁しない対応をしているとしてTwitterでは話題になっていた模様(Togetter)。

  • サーバー設計者のプロの見立ては一般人とはだいぶ違うようです。

    https://twitter.com/ippo_n/status/1311572556726509568 [twitter.com]

    東証の障害。共有ストレージのメモリ故障で生殺しになり自動フェイルオーバーせず発生。この手の障害は避けるの難しいだけに気の毒。16年3月にANAの Catalyst 4948E 起因のシステム障害も生殺しでフェイルオーバーしない事案だった。低レイヤーで生殺し障害出ると切り分け難しい。早期停止判断はGJだね

    東証cioは誰?横山隆介の大学など学歴は?wiki [koregasiritai.com]

    同日の午後4時に東証が記者会見を開き、システム障害が発生した経緯や原因について記者の質問に答えていましたが、東証cioの受け答えに賞賛の声が相次いでいます。

    https://twitter.com/ippo_n/status/1311572556726509568 [twitter.com]

    東証は、あの会見といいスピーディな判断といいCIOがキレキレでしたな
    それでいて、学歴が情報系でもなければ理系ですらない点は、控えめに言ってチート能力の持ち主だろ

    これらに対して読売新聞とか朝日新聞のたたきっぷりといったらないなと思った。

    ここに返信
  • by Anonymous Coward on 2020年10月02日 12時19分 (#3899130)

    ・東証側の説明が機能を理解した上で素人にも分かるよう適切にかみ砕いていて非常に判り易かった
    ・マスコミのITリテラシーは小学生以下だった
    ・マスコミは経営陣の感想にしか興味を持ってなかった

    ここに返信
    • by Anonymous Coward on 2020年10月02日 12時54分 (#3899152)

      うっかりプライマリー、セカンダリーと言ってしまう場面もありましたね
      やはり一般向けには1号機、2号機じゃないと分からないみたいですね

    • by Anonymous Coward on 2020年10月02日 17時37分 (#3899427)

      今回、故障した危機がアローヘッドの内か外かという質問の回答で350台のサーバーのあるシステムであると
      説明してるとことか、アローヘッド全体に拡大して理不尽に叩かれないようにしてる。
      こういうことを即時に判断して答えられるのは凄いな。
      ほかの方もベンダーや顧客との対立構造にならないようになど、注意して回答をしているようで感心する。

      後、記者の質問を聞いていると取引参加者はみんなパソコンの画面を眺めながら
      マウスのクリックて一件一件取引してるというイメージを持ってるんじゃないかと思えてくる。

    • by Anonymous Coward
      本件は科学ニュースじゃないんだから。。。
    • by Anonymous Coward

      まあ突発的な事件事故だと専門性の高い記者を確保できないのはしゃあないでしょう。
      会見を即座に開くのにはオープンで真摯な態度の表明の他に素人記者に来てほしいという願望もある。

      • by Anonymous Coward on 2020年10月02日 14時08分 (#3899233)

        突発的な事件・事故に専門性の高い記者を派遣して価値のある紙面を作るのが新聞屋の仕事でしょ?
        とりま素人記者を派遣して詳しい情報は後から……ってもうそれ新聞社じゃなくて旧聞社じゃん。
        素人記者のせいで会見のレベルが下がってるし害悪でしかないから居ない方がマシなんですけど。

      • by Anonymous Coward on 2020年10月02日 15時29分 (#3899302)

        まるで、突発的でなければ専門性の高い記者を確保できたかのような言い草だな。

    • by Anonymous Coward

      IT素人の妻娘が会見を見て、ほぼ同じ感想をもったそうな。
      仕事中だったのであとで動画を見て得心。

    • by Anonymous Coward

      ・マスコミのITリテラシーは小学生以下だった

      こういう巨大システムトラブルは日経クロステックの「動かないコンピュータ」取材班の仕事だと思うけど、日経新聞の記者は来てても日経クロステックの記者は来てなかったのかな?

  • システムは止まるモノ,と考えた上での適切な対応ですよね。
    再起動で治るかもで中途半端に動くと不味いし,いままでのトラブル経験を生かした形での「終日取引停止」ですしねえ。
    ここに返信
  • by NOBAX (21937) on 2020年10月02日 13時13分 (#3899170)
    A系、B系のように冗長化しておいても
    それが不調であって切り替えが必要と判定する部分を冗長化することは出来ないから
    そこが逝かれるとシステムは維持できないということなのだろうな
    ここに返信
  • by Anonymous Coward on 2020年10月02日 12時11分 (#3899127)

    これは深刻なバイド汚染が原因ですね

    ここに返信
  • by Anonymous Coward on 2020年10月02日 12時35分 (#3899141)

    ディスク装置のめもりーの故障は、SSDが壊れたようなものなのか
    それともキャッシュが壊れたのか。

    いままでどれくらいの頻度で自動切り替えが起こっていたのか、
    はじめての自動切換え だったりしないか...

    いろいろ気になりますね。

    ここに返信
  • by Anonymous Coward on 2020年10月02日 12時55分 (#3899153)

    ECC化してたら、エラー検出・訂正が期待できたのに

    ここに返信
    • by Anonymous Coward

      そんなことを言い出すとキリがありません
      (と言うかプロのエンジニアたちが設計&運用しているシステムですよ?)

      今以上の被害を出さないために、あえてシステムを止める。売買を終日停止する。翌日には問題なく復旧している。

      エンジニアとしても経営者としても妥当な英断だったと思います

    • by Anonymous Coward

      思った。
      でも共有ディスク装置ってのはNAS的な何かだとして、どこまでECC化する必要あるのかな。
      NASのメモリはECCにするとして、ストレージ自体(SSD)にもキャッシュと制御目的のメモリが載っててそれもECC搭載できるのかな?
      システムのあらゆるところにメモリはあるだろうけど、全部ECCにできるもんなのかな。

      • 普通に乗りますよ。
        SSDは冗長化しないと使い物になりませんしコントローラもECC対応しますよ
        // CPU内のレジスタもECC化した例もどこかで聞いた
    • by Anonymous Coward

      ECCは宇宙線とかによる一時的なデータ化けに対する耐性なので、メモリがハードウェア的に壊れた場合はどうしようもない。
      今回は、メモリ「故障」といってるので、データ化けじゃなくてハードウェア的に壊れたパターンでしょ。

    • by Anonymous Coward

      何を勘違いしてるのか知りませんが、ECCメモリは故障によるエラーを検出・訂正する技術ではないですよ?

  • by Anonymous Coward on 2020年10月02日 13時03分 (#3899160)

    東証ほどの大きな組織ではないけど、富士通やNECのこの手のシステムを導入しているけど、障害時に謳い文句どおりにまともに切り替わったことがあまりない。
    ハードウェア障害が起こっても、何事もなかったように業務システムを動かし続けるというのは、なかなか大変なことだと思う。

    ここに返信
    • by Anonymous Coward

      そちらのシステムがどうかはわかりませんが、正常に切り替わるとそれはニュースにならないんですよ。

      • そうね。
        概ね正常に切り替わるからこそ、フェイルオーバー失敗したら大変だよね。

        なお、ちゃんとフェイルオーバーして何事もなかったように継続稼働していたために、
        障害検知が漏れて切り替わった後の系が壊れたときに再フェイルオーバー出来なくて
        障害になったケースは見たことある。

    • by Anonymous Coward

      構築するのにやたらコストかかるのにうまく動かない。常時稼働システムと言えば二重系みたいに教科書には書いてあるが、机上の空論でしかなかった。

    • by Anonymous Coward

      念のための確認だけど全ての障害が表面化してないわけじゃないよね?
      うまく切り替わった場合は「当然」で組織内で障害扱いしてないと
      うまく切り替わってない場合だけが記録に(記憶にも)残る。

      --出しずらいとは思うけど24時間稼働のデータセンターのハードウェア故障の年間件数(or個数)とかの指標ってあったら一般人への説明に便利だねぇ

    • by Anonymous Coward

      すみません。テストのときはうまく切り替わったのですが…。

      • by Anonymous Coward

        切り替えスイッチが物理的に壊れる寸前までテストを繰り返してから本番に投入したのですが。

  • by Anonymous Coward on 2020年10月02日 13時29分 (#3899189)

    会見内で「一連の処理の流れの中で、定地点での処理に必要な情報…」と言った発言があったのですが
    記者の方は定地点(定時点)という言葉に反応できずに理解不能に陥ってしまったようです。
    一般には定地点(定時点)というのは通じない単語なのでしょうか?
    (当該の場面は動画の19:30あたりから)

    ここに返信
    • by Anonymous Coward

      定地点だと検索結果すら微妙だし、定地点・定時点ともに辞書にも載ってない。
      定時点って日本取引所グループの社内用語っぽい。

  • by Anonymous Coward on 2020年10月02日 13時30分 (#3899190)

    最近、クラウドとかでもシステム障害の話よく聞くけどなんでだろ。
    候補

    1. 単なる偶然 / ニュースになっただけで実際はよくあること
    2. 中国か北朝鮮のサイバー攻撃やサボタージュ (今回は該当せず)
    3. 太陽フレア的な何か (天文学者が気付かないわけないが)
    4. 5Gがメモリに悪さをする
    5. 使ってるメモリが同一工場産で、エラーが起きやすい
    6. 日付処理に何かのミスがある
    7. 共通して利用してるソフトウェアに問題がある (Linuxとか)
    8. コロナウイルスでメンテ品質が下がった
    9. コロナウイルスで負荷が上がるか下がるかした。その他、コロナウイルスが何か悪さをした
    ここに返信
    • by Anonymous Coward

      10.天王星の逆行中で、間もなく水星も逆行を始めるから

typodupeerror

計算機科学者とは、壊れていないものを修理する人々のことである

読み込み中...