パスワードを忘れた? アカウント作成
15252679 story
マイクロソフト

4月2日に発生したMicrosoftのサービス障害、原因はDNSクエリの異常な急増とコードの不具合 8

ストーリー by nagazou
仕様ではありません 部門より
headless 曰く、

日本時間4月2日朝に発生したAzure DNSの可用性に関する問題について、Microsoftが原因と対策を公表している(Azure の状態の履歴The Registerの記事Neowinの記事)。

問題が発生したのは日本時間2日6時21分から7時の間で、Azureがホストしているドメインを対象にしたAzure DNSサーバーへのDNSクエリが異常に急増したのだが、特定の一連のイベントでDNS Edgeキャッシュの効率を低下させるコードの不具合が露呈したという。これによりDNSサービスが過負荷の状態になり、DNSクライアントのリトライも増加してさらに負荷が上昇した。

クライアントからのリトライは正規のDNSトラフィックであることから、トラフィック急増緩和システムによる間引きも行われず、DNSサービスの可用性低下につながったとのこと。これにより、顧客はドメイン名の解決ができなくなり、AzureやMicrosoftのサービスが使用できないという事態になった。

サービスの可用性低下は監視システムを始動させ、DNSサービスは7時までに自動で復旧した。しかし、この復旧時間は設計目標よりも長い時間を要しており、Microsoftのエンジニアはさらなる対応が必要な場合に備えて容量とDNSクエリへの応答能力追加を準備。大半のサービスは7時30分までに復旧したという。インシデント発生直後、過度のリトライからDNSサービスを保護するため、トラフィック量急増緩和システムのロジックを更新したとのこと。

Microsoftでは次のステップとして、すべてのリクエストがキャッシュ内で効率よく処理できるようコードの不具合を修正すること、異常なトラフィックパターンの自動的な検出と緩和を改善することを挙げている。

この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
  • by Anonymous Coward on 2021年04月08日 13時29分 (#4009069)

    よく 8.8.8.8 を使う場合セカンダリに 8.8.4.4 を指定するような記事を見ますが、
    こういったトラブルを考えるとセカンダリは別会社のを指定しておくとリスクヘッジになるんですかね

    • by Anonymous Coward

      それはクライアントでDNSリゾルバを指定する場合の話でしょ。
      今回障害が起きたのは権威DNSサーバ機能だから少し話が違う。

  • あれ、まさにこの時間帯に入居しているマンション(一棟ごと一括光ネット契約、管理人非常駐)で
    DNSがトラブってpingは通るけど名前解決しない状態になったんだが
    上流のISP経由で巻き込まれていたのかな

    • by Anonymous Coward

      DNSクエリが異常に急増だからそっちですかねぇ…?

  • by Anonymous Coward on 2021年04月08日 15時40分 (#4009199)

    Azureトラブル多いな。

  • by Anonymous Coward on 2021年04月08日 18時33分 (#4009355)

    キャッシュ関連全般が欠陥だといつ気づくのか

    • by Anonymous Coward

      イきり坊やかわいいね^^

typodupeerror

海軍に入るくらいなら海賊になった方がいい -- Steven Paul Jobs

読み込み中...