パスワードを忘れた? アカウント作成
13217922 story
IT

Microsoft Azureの東日本データセンターで障害、空冷システムへの電源供給の不具合が原因 11

ストーリー by hylom
電源周りは怖い 部門より
あるAnonymous Coward曰く、

MicrosoftのクラウドサービスであるAzureが利用している東日本のデータセンターで、3月31日夜から4月1日朝にかけてシステム障害が発生していたことをMicrosoftが明らかにした

障害の原因は電源供給システムの不調で、空冷システムに電源供給が行われなくなったためにハードウェアの冷却が止まり、そのためシャットダウンが行われたことが原因だったという。電源システムはN+2の冗長性を持つよう設計されていたが、今回なぜトラブルに至ったのかは現在調査中。Publickeyによると、Azureでは3月8日に東日本リージョンでストレージ障害が、3月28日に西日本リージョンで仮想マシンなどの障害が発生していたとのこと。

この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
  • by Anonymous Coward on 2017年04月06日 8時24分 (#3188776)

    国内でロータリーUPSを採用しているデータセンタって、NTT-Com東京第6以外に有りましたっけ? 鉛バッテリの管理が不要な代わりに、回転軸を止められないから、個人的には信頼性に疑問持ってます。だからN+2構成にしていたんだろうけど…

  • by Anonymous Coward on 2017年04月06日 10時03分 (#3188826)

    SLA補償対象となるんでしょうけど、単に使用料金を返金するってだけなので当然ながらサービス停止による損害は補償してくれません。

    AzureのSLAは99.9%(AzureAPPは99.95%)なので月間40分強、年間で約8時間のダウンタイムを想定できるシステムにしか使用しちゃいけません(単一リージュンの場合)
    Azure使うようなところは複数リージュン使用して分散しているとは思いますし、なんならAWSや他のクラウドも共用しているんでしょうか。うらやましい。
    いろいろ構成を考えると意外と高くついちゃうんですよね、AWSとかAzureを代表としたクラウド環境って。
    丸亀製麺やココイチでも同じことを思っています。実はシンプルでも十分実用なのに、つい盛っちゃう。

  • by Anonymous Coward on 2017年04月06日 7時30分 (#3188756)

    どこと取引があったのだろう

    • by Anonymous Coward

      ダイハード4.0ですやん

  • by Anonymous Coward on 2017年04月06日 9時58分 (#3188821)

    クラウドって、どこで物理的な障害が起きても即座に別のところに切り替えられるからへーきへーき
    みたいなのを理想としてたと思うんだけど
    現代の現実としてはどうなの?
    8日・28日・それに今回の件で、実際に一般向けのサービスが停まったりってあったんだろうか?
    それとも理想どおり、別のリージョンのサーバに自動で切り替わったりしたんだろうか?

    • Bitcoin取引所のbitFlyerが8日と31日に止まってますね
      8日は一時間半ぐらい、31日は5時間ほど
      https://twitter.com/bitFlyer/status/839472945831407616 [twitter.com]
      https://twitter.com/bitFlyer/status/847816495841267712 [twitter.com]
      https://twitter.com/search?f=tweets&vertical=default&q=from%3A... [twitter.com]

      親コメント
    • by Anonymous Coward

      GCEのライブマイグレーションはすごいって記事はみたことがあります

      http://www.rightscale.com/blog/cloud-industry-insights/google-compute-... [rightscale.com]

    • by Anonymous Coward

      落ちた時点から別のデータセンターでコールドブートできるようにする→常時ストレージ同期が要る→パフォーマンス上の理由でやらない
      非同期にデータ同期する→最後の同期から落ちた時点までが失われる→上で動いてるサービスでそれが許されるのかは下からわからない→上でやれ

    • by Anonymous Coward

      クラウドではそういった構成を組むのが容易である、というだけです。
      自動で切り替わる仕組みを使いたければそのように構成する必要があります。

      例えばAWSだと、

      マルチAZ構成で冗長化すれば、サーバーインスタンスが止まってもサービスは止めずにすむよ。
      データセンタ丸ごと止まる事があっても大丈夫だよ。
      シングルインスタンス、シングルAZで構成したら、そりゃ止まるよ。

      というスタンスです。一台構成のサービスが止まっても、「うん、そうだね」て言われるだけ。

    • by Anonymous Coward

      他の人も書いてるけど、「即座に別のところに切り替えられる構成を作りやすいからある程度へーきへーき」だし、そういう構成を推奨される。
      そして現実としてやっている会社は存在する(Netflixが代表か)。
      もちろん冗長化を進めていけば金もかかるし複雑にもなるが、物理サーバで調達からやるのに比べればはるかに楽と思う。
      今回のAzureでは冗長構成がうまく動いたかどうかということはこれから報告が出てくるのでは?

  • by Anonymous Coward on 2017年04月06日 12時08分 (#3188900)

    海没型データセンターの実用化を急ごう

typodupeerror

192.168.0.1は、私が使っている IPアドレスですので勝手に使わないでください --- ある通りすがり

読み込み中...