パスワードを忘れた? アカウント作成
15719532 story
通信

au など KDDI 回線利用の通信に大規模障害 228

ストーリー by headless
トラヒック 部門より
maia 曰く、

7 月 2 日 1 時 35 分頃から au、UQ モバイル、povo の通信に障害が起きており、半日以上経っても解消していない (NHK ニュースの記事TBS NEWS DIG の記事 日本経済新聞の記事)。

影響は一般のスマホ等に限らず、回線を利用しているサービス全てにわたり、アメダスの一部、ヤマト運輸、大垣共立銀行の店舗外のATM、トヨタとスズキのコネクテッドカーのサービス、一部のバスの決済システムなどに影響が出ている。

KDDI が発表した 7 月 3 日 10 時現在の障害情報によれば西日本・東日本ともに 70 % 程度回復しており、西日本は 11 時ごろ回復となる見込みだという。東日本は 9 時 30 分を目標としていたが、回復に向けて継続的に取り組んでいる段階であり、具体的な回復見込み時間は後ほど発表するとのこと。 なお、7 月 3 日 7 時時点の障害情報でも回復状況は西日本・東日本ともに 70 % 程度となっていた。原因は 7 月 2 日未明の設備障害により VoLTE 交換機でトラヒックの輻輳が生じているとのことで、流量制御などの対処により音声通話およびデータ通信が利用しづらい状況が発生しているとのことだ。

KDDI の障害とは無関係に、スラドではおそらく 1 日 15 時過ぎからインデックス生成が停止している。スラドの皆さんにはご不便をおかけするが、復旧は月曜日になるかもしれないので、最新記事の取得には RSSまたはテスト版の新システムをご利用いただきたい。たが、3 日 15 時過ぎに復旧した。

  • 早くも (スコア:2, 興味深い)

    by Anonymous Coward on 2022年07月03日 11時05分 (#4281678)

    賠償を貰えるかどうかが焦点になっている模様

    au通信障害 利用者への損害賠償はある? 契約約款が焦点
    https://mainichi.jp/articles/20220703/k00/00m/040/010000c [mainichi.jp]

    ここに返信
  • by Anonymous Coward on 2022年07月03日 15時48分 (#4281750)

    機器の交換をしていたら不具合が起きて一部が不通になり、それが波及して全国的に繋がりにくくなったらしいけど、 1カ所ダメになるだけで全体に波及するほどぎりぎりで運用してるってこと?

    なんか携帯料金値下げからドコモ、auって立て続けに重大事故が起きてるような気がしてるんだけど、気のせい?

    ここに返信
    • Re:安全マージン (スコア:5, 参考になる)

      by saratoga (23467) on 2022年07月03日 17時06分 (#4281799) 日記

      > 機器の交換をしていたら不具合が起きて一部が不通になり、それが波及して全国的に繋がりにくくなったらしいけど、
      原因が知りたくて、11時からの社長会見を少し見た。まだ全容解明にはいたってみたいだけど、どうやら3段階を経て復旧に手間取る大規模障害になったようだ。
      まず、定期メンテナンスの一環としてルータの交換作業。旧機種の新機種への置き換えではなく同機種の置き換え。ここで置き換え後に通信が止まったため急遽もとのルータに戻す。
      これでもとに戻ればよかったのだが、ルータが止まっていた間の音声通話のVoLTE交換機へのトラフィックが一気に流れ出してVoLTE交換機が輻輳状態に。
      このときどういうわけか VoLTE交換機と連携している加入者DBが整合が取れない状態に陥り、こちらの復旧に手間取る、という流れらしい。

      最初のきっかけはルータの交換で通信が止まったことで、こちらはルータのハード故障か設定ミスだろうけど、やっぱり問題は加入者DBを道連れにしたVoLTE交換機かな。
      オペレーションとしてはルータ切り戻しの際に、VoLTE交換機へのトラフィックをあらかじめ絞っておくべきかも。
      #詳しい人の解説希望。

      • Re:安全マージン (スコア:2, 参考になる)

        by 90 (35300) on 2022年07月03日 23時04分 (#4282027) 日記

        このVoLTE交換機の輻輳に伴い、加入者データベースに登録した位置情報をVoLTE交換機に反映できず、加入者データベースでデータの不一致が発生した。
        https://xtech.nikkei.com/atcl/nxt/news/18/13226/ [nikkei.com]

        ここの図 [yatebts.com]のMMEが"VoLTE交換機", HSSが"加入者データベース"かな。HLR/HSSはたぶん契約状態変更に応じて外部から書き込みが生じていて、MMEはキャッシュを持っていて、UE(利用者端末)は常にのぞみ号博多行きに乗車しながら位置情報を送ってきているので、図のS6aインターフェイスが詰まったりMMEクラスタの中で不一致が生じたりすると容易に解約済み番号とか未契約番号とか認証前状態の番号とかに対する更新とか競合する書き込みがかかって自動的に不整合を起こすのかな。HSSのDBがマスタになるはずなので単にMMEのコピーをぶっ飛ばして再起動すればいいような気もしますが、それはそれで時間がかかったり認証が殺到して死んだりするのかも。

        交換機がルータ交換で死んだ原因は書かれていませんが、""経路""と言っているのでこの前のCloudflareと同パターンの予感。

        • Re:安全マージン (スコア:4, 参考になる)

          by Anonymous Coward on 2022年07月04日 5時18分 (#4282089)

          あなた以前にも [srad.jp]デタラメ書いて訂正されてましたよね。
          携帯電話網の基本的なことが分かってないのに知ったかぶりするのやめた方がいいんじゃないですか?

          ここの図 [yatebts.com] [yatebts.com]のMMEが"VoLTE交換機", HSSが"加入者データベース"かな。

          HSSが加入者データベースなのは合ってますが、MMEがVoLTE交換機なわけがありません。MMEはMMEです。
          MMEはキャッシュを持ちません。HSSのコピーを持つノードはVLRやI/S-CSCFです。
          引用の図はVoLTEを考慮していないのでIMS関係のノードが描かれておらず今回の事故を説明するには全く使えません。
          ドコモテクニカルジャーナル [docomo.ne.jp]やGSMAの資料 [gsma.com]などを参照してください。
          KDDIの言う「VoLTE交換機(VoPGW)」という用語が何を指すのか明らかではありませんが、標準アーキテクチャで言うところのI/S-CSCF、ドコモ網で言うところのVGN (VoLTE Gateway Node)に相当するものと考えられます。

    • by Anonymous Coward on 2022年07月03日 16時36分 (#4281776)

      > 機器の交換をしていたら不具合が起きて一部が不通になり、それが波及して全国的に繋がりにくくなったらしいけど、 1カ所ダメになるだけで全体に波及するほどぎりぎりで運用してるってこと?

      まあ結果的には安全マージンが足りなかったんだけど、そもそも全国3000万回線を抱えるネットワークでどの程度安全マージンを取ればいいのかなんて事前に分かんないんだよな。
      似たような失敗の経験はどの通信事業者にもあると思う。料金値下げとか関係なく、昔から知られた携帯電話網の構造的な弱点なので、半ば諦めモード。

    • by Anonymous Coward

      まあ想定外の単一障害点があったんでしょうな。なぜか意味もなくほとんどのトラフィックが通っちゃう経路とか。 料金値下げの影響よりは5G導入で失敗したほうが確率的に高い。料金値下げの影響は多分これから出る。

  • by Anonymous Coward on 2022年07月03日 16時11分 (#4281761)

    今までは障害起きてもガン無視だったのに、今回は復旧見込みと回避策提示するなんてやるじゃん

    ここに返信
  • by Anonymous Coward on 2022年07月03日 16時40分 (#4281779)

    昼過ぎにヤマトの配達きたけど、伝票が出せないってんでサイン省略でした。
    ああ例の件かと。
    インフラ系優先とか無理なんだろうなぁ...

    ここに返信
  • by Anonymous Coward on 2022年07月03日 11時33分 (#4281687)

    交換で済まない話なんでしょ。待機系くらい置いてあるはずだもの。
    ランサムウェアか何かに入られたんでしょ。
    いくら巻き上げるのかなあ。au民が負担するんだよね。

    ってことになるんだぞ。セキュリティのヘボいとこに契約するってのは。

    ここに返信
  • by Anonymous Coward on 2022年07月03日 15時42分 (#4281746)

    11時42分
    西日本での復旧作業終了とKDDI
    https://nordot.app/916157555214467072 [nordot.app]
    > ただ、通信量を制限する対応は続けており、回線の本格的な復旧時間は未定としている。

    ここに返信
  • by Anonymous Coward on 2022年07月03日 16時05分 (#4281754)

    コストの問題もあるからそう簡単には行かないんだろうが、気象のような重要サービスは複数キャリアと契約しておけって話だ。
    最悪、寝かしたSIMを用意しておいてこういう時には人間が現地に飛んで差し替えるだけでもいいのに、それすら惜しむほど貧しいのか?今の日本は。

    ここに返信
    • by miishika (12648) on 2022年07月03日 16時48分 (#4281785) 日記

      三大キャリアの中で一番最初に3Gを廃止して、「不要な発信(接続)を控えてくれ」と呼び掛けても応じられないIoT用途も全部4Gで収容していたことも要因かもしれない。

typodupeerror

Stay hungry, Stay foolish. -- Steven Paul Jobs

読み込み中...