au など KDDI 回線利用の通信に大規模障害 228
ストーリー by headless
トラヒック 部門より
トラヒック 部門より
maia 曰く、
7 月 2 日 1 時 35 分頃から au、UQ モバイル、povo の通信に障害が起きており、半日以上経っても解消していない (NHK ニュースの記事、TBS NEWS DIG の記事 、日本経済新聞の記事)。
影響は一般のスマホ等に限らず、回線を利用しているサービス全てにわたり、アメダスの一部、ヤマト運輸、大垣共立銀行の店舗外のATM、トヨタとスズキのコネクテッドカーのサービス、一部のバスの決済システムなどに影響が出ている。
KDDI が発表した 7 月 3 日 10 時現在の障害情報によれば西日本・東日本ともに 70 % 程度回復しており、西日本は 11 時ごろ回復となる見込みだという。東日本は 9 時 30 分を目標としていたが、回復に向けて継続的に取り組んでいる段階であり、具体的な回復見込み時間は後ほど発表するとのこと。 なお、7 月 3 日 7 時時点の障害情報でも回復状況は西日本・東日本ともに 70 % 程度となっていた。原因は 7 月 2 日未明の設備障害により VoLTE 交換機でトラヒックの輻輳が生じているとのことで、流量制御などの対処により音声通話およびデータ通信が利用しづらい状況が発生しているとのことだ。
KDDI の障害とは無関係に、スラドではおそらく 1 日 15 時過ぎからインデックス生成が停止している。スラドの皆さんにはご不便をおかけするが、復旧は月曜日になるかもしれないので、最新記事の取得には RSSまたはテスト版の新システムをご利用いただきたい。たが、3 日 15 時過ぎに復旧した。
早くも (スコア:2, 興味深い)
賠償を貰えるかどうかが焦点になっている模様
au通信障害 利用者への損害賠償はある? 契約約款が焦点
https://mainichi.jp/articles/20220703/k00/00m/040/010000c [mainichi.jp]
Re:早くも (スコア:3)
1984年の世田谷局ケーブル火災
https://ja.wikipedia.org/wiki/%E4%B8%96%E7%94%B0%E8%B0%B7%E5%B1%80%E3%... [wikipedia.org]
では、お店などからの損害賠償は棄却されています。
https://daihanrei.com/l/%E6%9D%B1%E4%BA%AC%E5%9C%B0%E6%96%B9%E8%A3%81%... [daihanrei.com]
Re:早くも (スコア:1)
賠償なんて、使えなかったと認定された期間、基本料の日割りが返されるだけですよ。約款にそう書いてある。
Re: (スコア:0)
KDDI 「つながりにくかっただけだからセーフ」
Re: (スコア:0)
呼損率出してみ?
Re:早くも (スコア:1)
契約以上を求めるのは「誠意を示せ」ってヤクザじゃないのか?
別にデュアルSIM使ったり固定回線を用意したりユーザ側もコストをかければ万が一のための防衛は出来るし、
損害に対して保険を掛けておく事もできるのだから。
総務省に怒られるのはそれはそれ。
Re:これを期に、総務省から障害時のキャリア間ローミングを指示して欲しい (スコア:1)
ユーザが接続しようとして一斉に押しかけて輻輳して死んでるので、
そんなローミング機能が実装できたとしても(できてしまったとしても)、
・障害時、KDDIユーザがドコモに押し掛ける→ドコモ死亡
・KDDIユーザとドコモユーザがSBに押し掛ける→SB死亡
となって全キャリアが満遍なく死ぬだけだぞ。
Re:賠償より今後の対応 (スコア:1)
3大キャリアみたいな大手の端末が一斉にローミングを始めたら、移行先の網も輻輳でダウンするんじゃなかろうか。
Re:賠償より今後の対応 (スコア:2)
認証要求殺到によるログインゲー状態かつ位置登録も不能なので、パケット配送先の基地局が決定できず、下り音声が返せません。一方的に他キャリアや固定に音声やUDPパケットやTCP SYNを送りつけることはできるとして、その意味があまり……
Re:賠償より今後の対応 (スコア:2)
"位置登録"によって最寄り基地局をコアネットワーク側に通知しないと、下りの通信が繋がりません。この位置登録が正常にできないということなので着信はおろか通話ができません。
ただ、データ通信は繋がる場合もあったという話なので、本当にVoLTEの交換機だけが落ちてたのかもしれないですね。その場合の挙動の解説はACの責任ある識者さんが引き継いでくれるようなのでお任せしたいかな。
Re:賠償より今後の対応 (スコア:1)
LINEで、広告を見れば一日あたり三分×5回まで無料で回線接続通話ができるという「LINE Out Free」で電話連絡ができて助かったって人はいる [togetter.com]みたいですね。番号割り当てがないから着信は無理か。
番号割り当てのある月額無料のIP電話サービスがあるなら、こういうトラブルに備えて番号持ってもいいかもと思って探してみたんだけど、
SMARTalk [ip-phone-smart.jp]とMy 050 [brastel.com]あたりが月額無料で050を貰えるっぽい。
SMARTalkって元FUSIONが楽天に買収されたものなのか…
Re:賠償より今後の対応 (スコア:1)
なるほど。じゃあ、月額無料はあきらめた方がよさそうですね。
となると、番号の貰えるIP電話で、有料ながらも維持費が安いところ、というと Skype out ですかね。
最初にチャージする必要はあり、その有効期限は180日となってますが
ってことで、条件が「発信」なので、ワン切りで通話料金がかからなくても期間延長される [ischool.co.jp]っぽい。
安全マージン (スコア:1)
機器の交換をしていたら不具合が起きて一部が不通になり、それが波及して全国的に繋がりにくくなったらしいけど、 1カ所ダメになるだけで全体に波及するほどぎりぎりで運用してるってこと?
なんか携帯料金値下げからドコモ、auって立て続けに重大事故が起きてるような気がしてるんだけど、気のせい?
Re:安全マージン (スコア:5, 参考になる)
> 機器の交換をしていたら不具合が起きて一部が不通になり、それが波及して全国的に繋がりにくくなったらしいけど、
原因が知りたくて、11時からの社長会見を少し見た。まだ全容解明にはいたってみたいだけど、どうやら3段階を経て復旧に手間取る大規模障害になったようだ。
まず、定期メンテナンスの一環としてルータの交換作業。旧機種の新機種への置き換えではなく同機種の置き換え。ここで置き換え後に通信が止まったため急遽もとのルータに戻す。
これでもとに戻ればよかったのだが、ルータが止まっていた間の音声通話のVoLTE交換機へのトラフィックが一気に流れ出してVoLTE交換機が輻輳状態に。
このときどういうわけか VoLTE交換機と連携している加入者DBが整合が取れない状態に陥り、こちらの復旧に手間取る、という流れらしい。
最初のきっかけはルータの交換で通信が止まったことで、こちらはルータのハード故障か設定ミスだろうけど、やっぱり問題は加入者DBを道連れにしたVoLTE交換機かな。
オペレーションとしてはルータ切り戻しの際に、VoLTE交換機へのトラフィックをあらかじめ絞っておくべきかも。
#詳しい人の解説希望。
Re:安全マージン (スコア:2, 参考になる)
このVoLTE交換機の輻輳に伴い、加入者データベースに登録した位置情報をVoLTE交換機に反映できず、加入者データベースでデータの不一致が発生した。
https://xtech.nikkei.com/atcl/nxt/news/18/13226/ [nikkei.com]
ここの図 [yatebts.com]のMMEが"VoLTE交換機", HSSが"加入者データベース"かな。HLR/HSSはたぶん契約状態変更に応じて外部から書き込みが生じていて、MMEはキャッシュを持っていて、UE(利用者端末)は常にのぞみ号博多行きに乗車しながら位置情報を送ってきているので、図のS6aインターフェイスが詰まったりMMEクラスタの中で不一致が生じたりすると容易に解約済み番号とか未契約番号とか認証前状態の番号とかに対する更新とか競合する書き込みがかかって自動的に不整合を起こすのかな。HSSのDBがマスタになるはずなので単にMMEのコピーをぶっ飛ばして再起動すればいいような気もしますが、それはそれで時間がかかったり認証が殺到して死んだりするのかも。
交換機がルータ交換で死んだ原因は書かれていませんが、""経路""と言っているのでこの前のCloudflareと同パターンの予感。
Re:安全マージン (スコア:4, 参考になる)
あなた以前にも [srad.jp]デタラメ書いて訂正されてましたよね。
携帯電話網の基本的なことが分かってないのに知ったかぶりするのやめた方がいいんじゃないですか?
HSSが加入者データベースなのは合ってますが、MMEがVoLTE交換機なわけがありません。MMEはMMEです。
MMEはキャッシュを持ちません。HSSのコピーを持つノードはVLRやI/S-CSCFです。
引用の図はVoLTEを考慮していないのでIMS関係のノードが描かれておらず今回の事故を説明するには全く使えません。
ドコモテクニカルジャーナル [docomo.ne.jp]やGSMAの資料 [gsma.com]などを参照してください。
KDDIの言う「VoLTE交換機(VoPGW)」という用語が何を指すのか明らかではありませんが、標準アーキテクチャで言うところのI/S-CSCF、ドコモ網で言うところのVGN (VoLTE Gateway Node)に相当するものと考えられます。
Re:安全マージン (スコア:1)
ためになるなあ。携帯網は自分で動かせてなくて中々知識が付かないんですよね。
Re:安全マージン (スコア:2)
HDDのスピンドルモーターはシンクロナスモータなので、回転数は供給電圧や電流に関わらずモータドライバSoCの制御に依存します。オーバーレブするにはSoCのクロックが狂っている必要がありますが、難しいんじゃないかな。HDDを使うDBが今時どれだけあるのか、ということを脇へ置いたとしても……
Re:安全マージン (スコア:1)
> 「壊れていないものは直すな」
壊れる前に交換してるから運用出来てるんですよ。
保守切れたハードが故障して同じような事態になったらまた文句言うんでしょうけどね。
Re:安全マージン (スコア:1)
> 機器の交換をしていたら不具合が起きて一部が不通になり、それが波及して全国的に繋がりにくくなったらしいけど、 1カ所ダメになるだけで全体に波及するほどぎりぎりで運用してるってこと?
まあ結果的には安全マージンが足りなかったんだけど、そもそも全国3000万回線を抱えるネットワークでどの程度安全マージンを取ればいいのかなんて事前に分かんないんだよな。
似たような失敗の経験はどの通信事業者にもあると思う。料金値下げとか関係なく、昔から知られた携帯電話網の構造的な弱点なので、半ば諦めモード。
Re: (スコア:0)
まあ想定外の単一障害点があったんでしょうな。なぜか意味もなくほとんどのトラフィックが通っちゃう経路とか。 料金値下げの影響よりは5G導入で失敗したほうが確率的に高い。料金値下げの影響は多分これから出る。
スラドが障害報を出すなんて珍しい (スコア:1)
今までは障害起きてもガン無視だったのに、今回は復旧見込みと回避策提示するなんてやるじゃん
Re:スラドが障害報を出すなんて珍しい (スコア:5, 興味深い)
Re:スラドが障害報を出すなんて珍しい (スコア:2)
凍結されたのって@sradjp_journalsだけなんだから、あおり食らって更新止まったままの@sradjpで告知してもいいんじゃないかと思った。
#もっとも私はTwitterアカウント持ってないのだけど(苦笑)
Re:スラドが障害報を出すなんて珍しい (スコア:1)
Re:スラドが障害報を出すなんて珍しい (スコア:2, すばらしい洞察)
headless氏個人が凄いんでしょ。障害が週末発生だったおかげ。
10時に70%回復ねぇ (スコア:1)
昼過ぎにヤマトの配達きたけど、伝票が出せないってんでサイン省略でした。
ああ例の件かと。
インフラ系優先とか無理なんだろうなぁ...
どうせ攻撃されたかなにか。 (スコア:0, 興味深い)
交換で済まない話なんでしょ。待機系くらい置いてあるはずだもの。
ランサムウェアか何かに入られたんでしょ。
いくら巻き上げるのかなあ。au民が負担するんだよね。
ってことになるんだぞ。セキュリティのヘボいとこに契約するってのは。
Re:どうせ攻撃されたかなにか。 (スコア:1)
シンプルに、値下げした結果人員や機材不足で対処が後手に回っただけでは
西日本は復旧作業終了(復旧したとは言ってない) (スコア:0)
11時42分
西日本での復旧作業終了とKDDI
https://nordot.app/916157555214467072 [nordot.app]
> ただ、通信量を制限する対応は続けており、回線の本格的な復旧時間は未定としている。
冗長化は重要 (スコア:0)
コストの問題もあるからそう簡単には行かないんだろうが、気象のような重要サービスは複数キャリアと契約しておけって話だ。
最悪、寝かしたSIMを用意しておいてこういう時には人間が現地に飛んで差し替えるだけでもいいのに、それすら惜しむほど貧しいのか?今の日本は。
Re:冗長化は重要 (スコア:2)
三大キャリアの中で一番最初に3Gを廃止して、「不要な発信(接続)を控えてくれ」と呼び掛けても応じられないIoT用途も全部4Gで収容していたことも要因かもしれない。
Re:冗長化は重要 (スコア:2, すばらしい洞察)
気象庁は観測データに価値を見出してないわけではなくて、慢性的に予算不足なので経験的に冗長化しなくても大丈夫と割り切っていただけかと。
気象庁に予算を振らないのは、馬鹿だと思う。
Re: Re:冗長化は重要 (スコア:2)
モデムと格闘したことがあればなぜ誰もやってないか分かるんじゃないでしょか。勝手に繋がってくれるテレメトリ機器作るのってすごくたいへんですよ。
事故があって原因があって調査が行われて具体的な結論が出てから、「事故の原因は後に具体的結論が出ることになる調査が行われる前から原因が分かっていなかったこと」と主張するのは、これは意味を持たない機械的な書き換えでしかないわけで、それによって「過去に原因をなくす対策が実装されたべき」というのは……言語の時制が……
Re:「謝って済む話じゃない」怒る客 (スコア:1)
だって、黙ってたら何もしてくれないでしょ?
政治には声を上げろ、賃上げには声を上げろと言う割には、こういった直接的な損害についてはモラルだの何だのと言って黙ってろという
ワケガワカラナイヨ
Re:「謝って済む話じゃない」怒る客 (スコア:1)
むしろ日本人だからでしょ。
諸外国でこんなことをしたら、店員から怒鳴られて終わり。
最悪、奥から屈強な大男が出てきたり、店員が銃を持ち出したり、警察呼ばれたりするわけですから。
金を払っていれば、相手が少しでもミスしたら許せないというのが日本人。
カスハラしたって、店員側は嫌な顔もせずに謝ってくれる訳ですからね。
Re:「謝って済む話じゃない」怒る客 (スコア:1)
すぐ謝罪するのはよくないよなぁ。
「とりあえず謝っとけ」っていう教育は害悪だと思う。
Re: (スコア:0)
アメリカじゃ警察官か銃を持参して店に入って片方が殺される事件ばっかりじゃん
怒られて終わりじゃねーよ
Re: (スコア:0)
客商売はしたくないなと、再確認させられる。 確か、au直営店は2店舗だけだったような。
すいません。解約手続きならできます、って案内すればいいと思うよ。
Re: Re: 「謝って済む話じゃない」怒る客 (スコア:1)
au直営店は一時期2店舗だけでしたが、近年2桁レベルに増えましたね。
全部を知っているわけじゃないですが代理店運営でも働いてるのはKDDI直雇用の人間だったり色々です。
直なのか代理なのかは客からは区別付かないですし、付ける必要もないと思います。
Re: (スコア:0)
怒るだけなら充分モラル高いでしょ。むしろ怒った振りぐらいしろと。
Re: (スコア:0)
実際それで解決することもあるので理解できる行動ではあります。
代替回線の提供であるとか、一部料金の返金であるとか。
鉄道だって遅延証明の発行なり代替輸送のバスの案内なりあるでしょう?
「繋がらないのでパケットを使い切ったと思い込んで追加チャージしてしまった」
なんてケースも締め日が来るまでに取り消しオーダー入れなきゃならないので
電話
Re: 「謝って済む話じゃない」怒る客 (スコア:2, おもしろおかしい)
代替回線の提供
「この番号宛のSMSが見れないと、ログインできないんです!!」
Re: (スコア:0)
端末が壊れたと思って買い替えようと店まで行く人も居るからなぁ。
Re: (スコア:0)
解決するわけでもないのに土下座しろとかよりマシですな
Re: (スコア:0)
日本人のモラルなんて昔からそんなんでしょ。 訴えりゃいいのにそうせず店員を怒鳴りつけてスカッとしたら終わり。
Re: Re:トラヒック (スコア:1)
それらの単語はどうなるか知らんが、昔ながらの工学用語で、
「ホトニクス」(photonics)とか、
「エミッタホロワ」(emitter follower)というのはある。
Re:トラヒック (スコア:1)
manager の表記ゆれよ。
マネージャー
マネージャ
マネジャー
マネジャ
全部見たことある。
Re:トラヒック (スコア:1)
ジャーマネもお忘れなく(!?)
Re:MNO四天王 (スコア:2)
四天王は5人いるという常識に従うと、最後の一人の沖縄セルラーは今回同時にやられている。