パスワードを忘れた? アカウント作成
16576360 story
インターネット

NTT東西の大規模障害、特定条件で再起動を繰り返す未知のバグ 46

ストーリー by nagazou
未知 部門より
NTT東西の提供する「フレッツ光」は、4月3日に約3時間にわたり障害が発生した。この障害に関してNTT東日本とNTT西日本は28日、報道陣向けの説明会を開催した。障害の原因に関しては、NTT東西と通信機器メーカーによる解析の結果、加入者収容装置のうち特定機種の一部でソフトウェアの不具合があったためだった(ケータイ WatchImpress Watch)。

具体的には、大容量データを複数の拠点へ配信する際に用いられる「マルチキャスト受信」において、複数の条件が重なり、加入者収容装置のパケット転送部が再起動を繰り返したためだとしている。この加入者収容装置は2018年からNTT東西に導入されていたが、今回のソフトウェアの不具合はNTTとソフトウェア会社の両社にとって初めて、メーカー側も把握していないものだったとしている。なお、今回の事象においてサイバー攻撃の痕跡は見られなかったとしている。
この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
  • by Anonymous Coward on 2023年05月03日 9時22分 (#4453939)

    マルチキャスト関係は昔からバグの温床よね。使われる対象や環境が限定的だから未だにぽろぽろ見つかる。

    • by Anonymous Coward

      わかる。いまいちマイナーで不具合大目なうえに、やらかしたときの影響がでかくて困る。

    • by Anonymous Coward

      もう実質LAN内部でマルチキャストDNSとかするときしか使ってないのかなと思ってた。まだ現役でやってたんだなあ。

      • by Anonymous Coward

        ひかりTVでバリバリ使ってる

        • by Anonymous Coward

          もうサブスクの時代なんだから、ひかりTVとマルチキャストを止めた方が収支的にマシ。

  • by Anonymous Coward on 2023年05月03日 9時33分 (#4453944)

    正系がダウンしたら、別ベンダーの副系を稼働させてバグ回避みたいな

    もちろん最近のネットワーク機器は、チップセットベンダー主導開発のが増えてるので、
    チップセットベンダーから別の機器ね

    • 正系がダウンしたら、別ベンダーの副系を稼働させてバグ回避みたいな

      物的・人的コストを度外視できれば理論的には不可能ではない、ぐらいでしょうか。

      コンピュータでいうと、正副データベースサーバとフロント Web サーバ群があったとして、システムのバグ回避のために正系は Linux で、副系は Windows で、Web サーバ群も両方用意しときましょう、ぐらいの感じかなぁ。障害が減ると思います?

      自分でも Cisco系と HPE系との組み合わせとか考えた(夢想した)ことがないわけではないんですが、テストを考えるだけでも、やっぱり無理だよーとなってしまいます。

      ある程度大きなネットワークなら、階層構造で設計します。例えばコア、ディストリビューション、アクセスの典型的 3層だとすると、コア層の障害対応で正常系と待機系が切り替わったとしても、切り替わり完了後はディストリ層ではコア層の系統がどちらか意識する必要はありません(というか必要が無いように設計する… したい※)。
      でもベンダーが違ったら、影響範囲を層毎に閉じ込めるのは無理でしょう。そうすると組み合わせが増える毎にテスト数が爆発してしまいます。

      ※コスト優先の Active-Active 構成障害時縮退運転とか、理想通りにはいかない…

      親コメント
      • コンピュータでいうと、正副データベースサーバとフロント Web サーバ群があったとして、システムのバグ回避のために正系は Linux で、副系は Windows で、Web サーバ群も両方用意しときましょう、ぐらいの感じかなぁ。障害が減ると思います?

        もちろん、データベースサーバも正副でベンダーを分けるんですよね。Microsoft SQL Server と Oracle Database とか。

        親コメント
        • by Anonymous Coward
          webサーバ回りも別の物にしないと
          • by Anonymous Coward

            当然Apache(or nginx)とIISでしょ

        • by Anonymous Coward

          両方ともSQLじゃ脆弱性とバグの塊だから、ここは敢えてNoSQLなRedisとかをだな・・

          • by Anonymous Coward

            IFは同じにしないと、その手前に共通のIF用意してドライバ用意して……になる。
            知見の蓄積のないIF作った上でSQLも結局使うんならフツーにSQLのがマシって事は十分ありうる。

    • by Anonymous Coward

      正系と副系が別々の設定になって構成管理も別々にやらなければならないので、
      構成変更時の作業コストが単純に2倍になりますし、
      副系の設定の正当性が確認できないため、障害時に設定ミスが発覚する危険性があります。

      • by Anonymous Coward on 2023年05月03日 17時44分 (#4454137)

        ネットワーク機器だけのベンダー冗長をとることでそこまで問題視するほどコスト上がるかな。
        別にミドルウェアまでフルスタックでベンダー分けろって話でもないでしょ。
        納期遅延のリスク低減とかも可能だし、複数のベンダーの選択肢を持った状態で構築出来ることのメリットはそこそこあるよ。

        親コメント
        • by Anonymous Coward

          >別にミドルウェアまでフルスタックでベンダー分けろって話でもないでしょ。
          ミドルウェアのバグで不具合が発生したときのことを想像できた。

          • by Anonymous Coward

            それどころか、どっちのベンダの問題なのか切り分けできず、障害回復できないまま#4453944氏が右往左往するまでが予見できます。

    • by Anonymous Coward

      複数ベンダーでバックアップ系を構成した場合、検証中に不審な動作があっても責任の押し付け合いでにっちもさっちも行かなくなることが想像されるので、やりたくはないだろうなあ。切り替え時間を短縮したいと思っても、どちらも仕様変更や機能追加には応じないだろうし。

    • by Anonymous Coward

      構築にも運用でも3倍のコストがかかっていいならできる。

    • by Anonymous Coward

      加入者収容装置を二重化したら、ONUも二重化しなきゃ。個人利用では無理でしょ。
      また、マルチキャストの場合はpreempt無効みたいな制御はできないので、再起動を繰り返す不具合には対応できない。

    • by Anonymous Coward

      正副の問題ではないのでは?

      稀に発生するのであれば、正副で解決できるが、今回のトラブルは構造的問題で
      一度発生すると、システム全体に連鎖的に波及する問題、
      特定の機種でしか発生しないは判明しているので、トラブルの多いベンダーを外すのが一番でしょ。
      バグがどこにあるかわからないので直しようがないのでしょうから
      再発防止ならそういう判断しかないでしょう。
      さらに同じトラブルは次も起こる前提で同様に動かなくなることもことも考慮し、
      ネットワークの冗長性をあげることで、問題メーカーから他のメーカーに切り替えていくだけでしょう。

    • by Anonymous Coward

      鉄道システムでは障害があっても全部は止まらないように、複数社の同一仕様のシステムを導入している駅もあるね。お金は掛かるけど。
      開発時も突合試験やってるし。

  • by Anonymous Coward on 2023年05月03日 9時37分 (#4453945)

    ソフト会社さんは旅行やめて客先に行くんですか?

    • by Anonymous Coward on 2023年05月03日 11時02分 (#4453988)

      だからこそ朝早くか前日のうちに移動しておくのですよ。

      親コメント
      • by Anonymous Coward

        会社から移動しておくのは良いジョークですね

      • by Anonymous Coward

        通信できないところを選ぶのが基本なので、IT関係者は山登りが趣味になりがちである

    • by Anonymous Coward

      当たり前でしょ。それがNTTと取引するということ。

      • ×それがNTTと取引するということ。
        〇それが社会インフラを支えるということ。

        親コメント
        • by Anonymous Coward

          ×それがNTTと取引するということ。
          〇それが社会インフラを支えるということ。

          ×それがNTTと取引するということ。
          △それが社会インフラを支えるということ。
          〇そこに疑問を持つこと自体が交代要員を想定していないブラック状態ということ

          • by Anonymous Coward

            まあ5/3にシフトを割り当てられた誰かは旅行に行けないわけで。人間の仕事を奪うAIはよ

      • by Anonymous Coward

        NTTに限らんけどね(TT)

    • by Anonymous Coward

      会社から支給されている携帯を持ち運べと言われている人はご愁傷様。
      そうでなければ、会社に教えている番号のSIMを無効化しておけばいいよ。

    • by Anonymous Coward

      GWの旅行は計画的休暇なので、基本その人が不在で問題無いように調整してあるのが前提かと。
      自分と他人の迷惑を中心に諸々の利益を秤にかけて、要望をぶっちするかは各々の裁量だと思います。(各々の最上位がNTT)

    • by Anonymous Coward

      何もできないでしょ。
      トラブルの原因がわかってないのですから状況を見て放置だね。
      ソフトウェアのトラブルじゃない可能性もあるよね。

      >> NTT東西の障害は「同じメーカーの装置」でのみ発生
      ベースになるシステムの根本的不具合となると
      ハードウェア的欠陥かOS側のトラブルに起因する可能性が高い。
      この状況ではシステムを多重化しても、結果は同じ。

    • by Anonymous Coward

      こういうSLA契約(稼働率保証)とかありそうな案件に係わる場合、予定外の
      呼び出しが必要ないように事前にいろいろ仕込んでおくものなんだよ。
      なんなら雇用契約からして呼び出し可能にしてたりする(手当とかの基準がある)。

      この件は、3時間で回復できてるあたり、問題の回避自体は事前に用意された
      手順通りの作業(異常パケットの分析と遮断)の範囲内でできていると思う。
      その後の対応は会社側の判断(検証・抜本対策を後回しにするリスクと、
      緊急で呼出することにより発生するコストのバランス)次第。

  • by Anonymous Coward on 2023年05月03日 11時22分 (#4453996)

    NTT東西の障害は「同じメーカーの装置」でのみ発生、外部からの攻撃の可能性は低く
    https://k-tai.watch.impress.co.jp/docs/news/1490733.html [impress.co.jp]
    機器に欠陥があるって言ってますね。

  • by Anonymous Coward on 2023年05月03日 22時55分 (#4454258)

    グレース・ホッパーの墓碑に謝れ NTT

typodupeerror

普通のやつらの下を行け -- バッドノウハウ専門家

読み込み中...