パスワードを忘れた? アカウント作成
14166550 story
インターネット

Cloudflare、ケーブルを誤って抜いてしまい4時間以上の障害発生 23

ストーリー by hylom
よくありそうなトラブルの大規模バージョン 部門より

4月15日、コンテンツ配信サービスCloudflareのダッシュボードやAPIに約4時間21分にわたってアクセスできない状態が発生した。原因はデータセンター感を接続するファイバー接続の設定ミスだという(PublickeyCloudflare)。

Cloudflareではこの時間帯にデータセンターの1つでメンテナンスを計画しており、技術者にとあるキャビネット内に収容されている未使用状態になっていた全機器を取り外すよう指示していたという。このキャビネットは外部への接続のためのパッチパネルへと接続されており、この作業時に誤ってパッチパネルのケーブルを抜いてしまったのが障害発生の発端になったそうだ。

これによってダッシュボードへのログインやAPIの使用、各種設定変更などの操作が行えなくなっていたとのこと。コンテンツ配信機能やセキュリティサービスなどへの影響はなかったという。Cloudflareは外部との全接続を1つのパッチパネルに集約していたことがトラブルの原因だったとし、接続を分離するとともに、トラブルを解決しやすくするためにケーブル接続に関するドキュメントを用意する、技術者にケーブルには触らないよう指示を出す、といった対策を行うとしている。

この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
  • このキャビネットは外部への接続のためのパッチパネルへと接続されており、この作業時に誤ってパッチパネルのケーブルを抜いてしまったのが障害発生の発端になったそうだ。

    ここ間違ってない?
    「キャビネット内の未使用機器全部外しといて〜」
    →キャビネット内には外部との接続用パッチパネル入ってた
    →「言われた通り全部外すかぁ〜」
    →あぼーん

    では?

  • by Anonymous Coward on 2020年04月21日 13時32分 (#3801636)

    掃除のおばちゃんがその辺のコンセントに掃除機のコンセントを挿す。
    ↓掃除開始
    UPSが悲鳴を上げる

    レーザープリンターを繋いでいて、プリントの度に悲鳴は聞いたことがある。

  • by Anonymous Coward on 2020年04月21日 14時18分 (#3801668)

    これは新しいアクティビティと見た。
    これからの人類には必要だ。

  • by Anonymous Coward on 2020年04月21日 14時15分 (#3801666)

    Google、MSなどの大手で障害ある度

    あんな大手でも障害はあるんだから、我々のサービスが(略

    と声を出したい衝動が。
    ※言いませんよ。

    • by eru (12367) on 2020年04月21日 14時37分 (#3801677) 日記

      "ある程度の障害はあって当たり前"で、GoogleとかMS等は"ダウンタイムを如何にして最小にするか"という運用な気がする。
      "障害発生をゼロにする"だとどんだけコストかかるんだろう…

      親コメント
      • by Anonymous Coward

        実際には保証している品質を提供するのは無理なので、いかに免責事項を増やすかという運用の気もする。

        • by Anonymous Coward

          稼働率を保証しますが未達でも保障も補償もしません。

          • by Anonymous Coward

            魔法の言葉「ベストエフォート」を使わなきゃ。

typodupeerror

私は悩みをリストアップし始めたが、そのあまりの長さにいやけがさし、何も考えないことにした。-- Robert C. Pike

読み込み中...