Microsoft Azureの東日本データセンターで障害、空冷システムへの電源供給の不具合が原因 11
ストーリー by hylom
電源周りは怖い 部門より
電源周りは怖い 部門より
あるAnonymous Coward曰く、
MicrosoftのクラウドサービスであるAzureが利用している東日本のデータセンターで、3月31日夜から4月1日朝にかけてシステム障害が発生していたことをMicrosoftが明らかにした。
障害の原因は電源供給システムの不調で、空冷システムに電源供給が行われなくなったためにハードウェアの冷却が止まり、そのためシャットダウンが行われたことが原因だったという。電源システムはN+2の冗長性を持つよう設計されていたが、今回なぜトラブルに至ったのかは現在調査中。Publickeyによると、Azureでは3月8日に東日本リージョンでストレージ障害が、3月28日に西日本リージョンで仮想マシンなどの障害が発生していたとのこと。
ロータリーUPS (スコア:2, 興味深い)
国内でロータリーUPSを採用しているデータセンタって、NTT-Com東京第6以外に有りましたっけ? 鉛バッテリの管理が不要な代わりに、回転軸を止められないから、個人的には信頼性に疑問持ってます。だからN+2構成にしていたんだろうけど…
SLAは保証だけど補償してくれるだけ (スコア:2, 参考になる)
SLA補償対象となるんでしょうけど、単に使用料金を返金するってだけなので当然ながらサービス停止による損害は補償してくれません。
AzureのSLAは99.9%(AzureAPPは99.95%)なので月間40分強、年間で約8時間のダウンタイムを想定できるシステムにしか使用しちゃいけません(単一リージュンの場合)
Azure使うようなところは複数リージュン使用して分散しているとは思いますし、なんならAWSや他のクラウドも共用しているんでしょうか。うらやましい。
いろいろ構成を考えると意外と高くついちゃうんですよね、AWSとかAzureを代表としたクラウド環境って。
丸亀製麺やココイチでも同じことを思っています。実はシンプルでも十分実用なのに、つい盛っちゃう。
サイバー攻撃? (スコア:0)
どこと取引があったのだろう
Re: (スコア:0)
ダイハード4.0ですやん
クラウド素人の俺が来たよ もてなせ (スコア:0)
クラウドって、どこで物理的な障害が起きても即座に別のところに切り替えられるからへーきへーき
みたいなのを理想としてたと思うんだけど
現代の現実としてはどうなの?
8日・28日・それに今回の件で、実際に一般向けのサービスが停まったりってあったんだろうか?
それとも理想どおり、別のリージョンのサーバに自動で切り替わったりしたんだろうか?
Re:クラウド素人の俺が来たよ もてなせ (スコア:1)
Bitcoin取引所のbitFlyerが8日と31日に止まってますね
8日は一時間半ぐらい、31日は5時間ほど
https://twitter.com/bitFlyer/status/839472945831407616 [twitter.com]
https://twitter.com/bitFlyer/status/847816495841267712 [twitter.com]
https://twitter.com/search?f=tweets&vertical=default&q=from%3A... [twitter.com]
Re: (スコア:0)
GCEのライブマイグレーションはすごいって記事はみたことがあります
http://www.rightscale.com/blog/cloud-industry-insights/google-compute-... [rightscale.com]
Re: (スコア:0)
落ちた時点から別のデータセンターでコールドブートできるようにする→常時ストレージ同期が要る→パフォーマンス上の理由でやらない
非同期にデータ同期する→最後の同期から落ちた時点までが失われる→上で動いてるサービスでそれが許されるのかは下からわからない→上でやれ
Re: (スコア:0)
クラウドではそういった構成を組むのが容易である、というだけです。
自動で切り替わる仕組みを使いたければそのように構成する必要があります。
例えばAWSだと、
マルチAZ構成で冗長化すれば、サーバーインスタンスが止まってもサービスは止めずにすむよ。
データセンタ丸ごと止まる事があっても大丈夫だよ。
シングルインスタンス、シングルAZで構成したら、そりゃ止まるよ。
というスタンスです。一台構成のサービスが止まっても、「うん、そうだね」て言われるだけ。
Re: (スコア:0)
他の人も書いてるけど、「即座に別のところに切り替えられる構成を作りやすいからある程度へーきへーき」だし、そういう構成を推奨される。
そして現実としてやっている会社は存在する(Netflixが代表か)。
もちろん冗長化を進めていけば金もかかるし複雑にもなるが、物理サーバで調達からやるのに比べればはるかに楽と思う。
今回のAzureでは冗長構成がうまく動いたかどうかということはこれから報告が出てくるのでは?
空冷は信用ならない (スコア:0)
海没型データセンターの実用化を急ごう