パスワードを忘れた? アカウント作成
13710493 story
クラウド

Microsoft Azure米国中南部リージョン、電源トラブルで冷却できずシャットダウン 28

ストーリー by hylom
電源トラブルは冷却から止まるのか 部門より

Microsoft Azureの米国中南部(South Central US)リージョンでシステム障害が発生し、一部のサービスが長時間停止する事態になっていたという、原因は落雷によるデータセンターの電源トラブルだそうで、これによってデータセンター内の冷却システムにトラブルが発生、ハードウェアのシャットダウンが発生した模様(PublicKeyZDNet)。

このトラブルによって同リージョンで提供されているすべてのサービスに影響が出たほか、Azure Active DirectoryやAzure Bot Service、Azure Resource Managerにも影響が出た模様。Office 365にも影響が出たという話もある。

この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
  • by Anonymous Coward on 2018年09月11日 7時33分 (#3478341)

    Azureみたいなクラウドサービスを使えばいいのに(いつぞやのAWSネタのMS版)

  • by Anonymous Coward on 2018年09月11日 7時34分 (#3478342)

    どこかのサイトが落ちた時、別サイトにフェイルオーバーするとかは無理なの?
    少なくとも固定コンテンツや、リードオンリーのDBなら可能だと思うが

    • by Anonymous Coward

      ユーザ側でやればいいんじゃね。クラウド側が自動でやるならもうリージョンなくなるな。

    • by Anonymous Coward

      可用性セット

    • by Anonymous Coward

      GCEやAWS Lambdaみたいないわゆる「サーバレス」、ユーザが触れない謎の処理系に生コードをうpして結果だけもらうアーキテクチャなら、クラウド事業者の方で面倒見てるんじゃない? それじゃ太古の負債が引き継げないという理由でリージョン固定のVPSが持て囃されるんだから、それだったら自己責任だよね。

      • by Anonymous Coward

        リージョン固定はデータの保持やサービスを提供するサーバの所在国を固定する意味合いでやることも有るらしいよ。

        それが理由だと国内でのバックアップは出来ても全世界でバックアップ掛けるのは(少なくとも一部のプランでは)出来ないだろうし、
        そもそもバックアップ掛けるにしても遠く離れたDCまでデータ同期掛けるのは専用に回線確保しててもコスト高いだろうしうーん。

        • by Anonymous Coward

          大使館内や船上のデータセンターならいけるか?
          回線の細さやコストはどうしようもないだろうが。

      • by Anonymous Coward

        GCEはIaaS、GCPのサーバレスはCloud Functions。
        細かいですが、お間違いなきよう。

  • by Anonymous Coward on 2018年09月11日 7時59分 (#3478347)

    さくらインターネットの石狩データセンターの一件といい、
    データセンターは障害が起こって初めて真の価値がわかるってものですね。

    • by Anonymous Coward on 2018年09月11日 12時50分 (#3478609)

      Azureってデータセンタ障害が比較的多い気がするんですよね

      去年の春には東日本リージョンで大規模障害やらかしてるんですよね
      このときは落雷が原因ではないのですが、電源設備障害→冷房停止→自動シャットダウンという今回と全く同じ流れ

      もうちょっと過去の教訓とかそういうので、信頼性を何とかしてほしいなーという感じです

      https://www.publickey1.jp/blog/17/azure71.html [publickey1.jp]
      https://blogs.technet.microsoft.com/jpaztech/2017/04/03/rca34296489/ [microsoft.com]

      親コメント
    • by Anonymous Coward

      でも平然と対処できた場合にはニュースにもならんから、一般に知られないという罠。

      ※石狩データセンターの奇跡、的な記事がどっかに上がってたけど、奇跡ってのは運を天に任せて幸運だった、ってことなので、十分準備して対応できた今回のケースは奇跡じゃないよなー、とか思うね。
      ※安易に○○の神、みたいに人をおだてるのと同じような、奇跡の濫用だねぇ。

      • by Anonymous Coward

        「軌跡」のtypoですよ。きっと。

      • by Anonymous Coward

        >十分準備して対応できた今回のケース

        UPSの不具合で発電機の起動に失敗してるので、
        「十分準備したつもりで対応できなかったケース」だと思ってますが…。
        北海道にあるDCはさくらだけではなく、さくら以外は大きな障害もなく稼動し続けたので。

        • by Anonymous Coward

          「発電機の起動に失敗した」のソース希望

          • by Anonymous Coward

            普通に考えてUPSは発電機の起動までの繋ぎだろうから、発電機自体は関係ないよねぇ

    • by Anonymous Coward

      でも稼働率99.9999%を99.99999%にするとかは割とどうでもいい気がするのよね。
      特にその数時間の為にどれだけコストを割り増すのかと考えると、過剰性能なユーザーは結構多いと思う。
      そうしてデータセンターが社会インフラとなって耐障害性で競争してるとそのうち低コスト・中品質なところが出てきそう。
      実際障害が起きるまでは100%だし、既存メーカーは初期のトラブルが足かせになって統計上の稼働率を上げるにも限界があるし。

  • by Anonymous Coward on 2018年09月11日 8時01分 (#3478348)

    GCPでもいいけど枠超えた災害対策要検討

  • by Anonymous Coward on 2018年09月11日 8時34分 (#3478377)

    クラウドって、各サーバが国を超えてデータをバックアップしあってるから、
    例えば日本国内のサーバがダウンしても海外のサーバで運用可能とか、
    そういうんじゃなかったっけ?

    それとも、あくまでもその地域のリージョン(言語)で動かなかっただけで、
    例えばアメリカ本国サーバに接続してデータは見れたとか、
    アメリカ本国のサーバに接続してOffice365は動かせたとかなんかな。

    • by Anonymous Coward

      AWSもAzureも、そんな事(例えば日本国内のサーバがダウンしても海外のサーバで運用可能)は一言も謳ってないですよ
      リージョンを超えたフェイルオーバーやディザスタリカバリは、オプションだったりユーザ側でやれのスタンスです

    • by Anonymous Coward

      そうそう。なぜか独り歩きしてAWSやAzureはリージョン間で冗長化してあるから
      サービスの待機系は不要(データバックアップは別)とどこかで聞いてくる人がいて困る。
      例えばAzureでもストレージをGRSにしないといけません。LRSやZRSは冗長性はあっても
      今回のさくらの様にリージョン全域での停電だと、データの保全性はあってもサービスは継続できませんよね。
      で、GRSで見積もり出すと「高い」と言われる・・・

    • by Anonymous Coward

      リージョン越えてバックアップしてるから問題ないっていうのは、
      googleなりMSの自社サービスでは?

      googleの検索サービスや広告配信サービス、
      MSの自社HP閲覧、bingの検索サービスとか

    • by Anonymous Coward

      コメ元です。
      皆さん、説明ありがとうです。
      そうか...基本的にこれはオレの勘違いなんですね。
      何でこんな勘違いしてたんだろう。

      そうすると、クラウドのメリットって、どこからでも会社のサーバに接続できる事と、
      サーバのハードウェアを自社で持つ必要がないって事だけかな。
      バックアップもクラウドでやってくれてるという話はあるけれど、
      リージョンのサーバが完全ダウンしたら結局会社のデータを見る事ができないし、
      リージョン内でしかバックアップしてなくて、例えばそこサーバ自体に水没とか火災とかがあったら、
      そのバックアップもダメになる可能性が高い訳だよね。

      そうなると、クラウドに関するメリットに魅力は感じないなぁ...
      むしろ、自身がデータもハードもどうにかできる状態じゃないって、デメリットが大き過ぎるように感じるよ。

      • by Anonymous Coward

        従来のシステムの延長でクラウドを利用しようと考えているからですね。
        低レベルからクラウドに合わせたシステムを構築すればさまざまなメリットが得られます。
        そうでないならほとんど意味ない。

      • by Anonymous Coward

        IaaSであれば、
        ・ハードウェアメンテをする必要がない
        ・OS層より下のセキュリティ管理をクラウド業者に任せることができる
        ・パブリッククラウド業者の強力なネットワークを使うことができる
        ・使いたい時だけサーバを増やすことができる
        などのメリットがあります。

        >リージョン内でしかバックアップしてなくて、例えばそこサーバ自体に水没とか火災とかがあったら、
        >そのバックアップもダメになる可能性が高い訳だよね。

        クラウド以外とはどういう想定をしているのかわかりませんが、例えば自社サーバであるなら、自社が火災にあった時の対策はどうするのでしょうか?
        複数の自社拠点に分散してバックアップをさせるのでしょうか?

        分散バックアップを自前でやるなら、クラウド上で自前で複数リージョンにバックアップするほうが楽です。
        コマンド一発だったりして、非常に簡単なのですから。
        それでもデメリットが大きいと感じるのでしょうか?

        なんでデメリットが大きいと感じてるのか、まったく分かりません。

      • by Anonymous Coward

        各社リージョン間でデータ同期を行うための仕組みは色々提供されてますよ。
        ただ、法律などでのデータ移動の制限があるので、「自動では」やらないというだけです。

      • by Anonymous Coward

        単に日本国内と海外のリージョンを使うように設定しておけばいいんじゃないの。その分お金かかるけど。

    • by Anonymous Coward

      一般の人々には「クラウド」ってのが、そもそもよく分からない魔法のようなものでなんかどっかのコンピュータのかたまりがなにかをしている、という認識になってるのではないかなあ。というか言ってる私がこの認識。

  • by Anonymous Coward on 2018年09月11日 11時57分 (#3478574)

    Gigazine 記事 [gigazine.net]ですが

    「復旧作業時に別の日にやる予定だったサービス停止を伴う作業もついでにやってしまおう」と判断した

    ということで、追加のサービス停止を嫌ってか、ただ面倒臭がってか横着したのが原因のようですよ。

    追加の停止は SLA に影響するなど、何等か事情があったのかもしれませんが同情はできません。

typodupeerror

「科学者は100%安全だと保証できないものは動かしてはならない」、科学者「えっ」、プログラマ「えっ」

読み込み中...