Microsoft Azure米国中南部リージョン、電源トラブルで冷却できずシャットダウン 28
ストーリー by hylom
電源トラブルは冷却から止まるのか 部門より
電源トラブルは冷却から止まるのか 部門より
Microsoft Azureの米国中南部(South Central US)リージョンでシステム障害が発生し、一部のサービスが長時間停止する事態になっていたという、原因は落雷によるデータセンターの電源トラブルだそうで、これによってデータセンター内の冷却システムにトラブルが発生、ハードウェアのシャットダウンが発生した模様(PublicKey、ZDNet)。
このトラブルによって同リージョンで提供されているすべてのサービスに影響が出たほか、Azure Active DirectoryやAzure Bot Service、Azure Resource Managerにも影響が出た模様。Office 365にも影響が出たという話もある。
マイクロソフトも (スコア:1)
Azureみたいなクラウドサービスを使えばいいのに(いつぞやのAWSネタのMS版)
サイト間でフェイルオーバーできないの? (スコア:0)
どこかのサイトが落ちた時、別サイトにフェイルオーバーするとかは無理なの?
少なくとも固定コンテンツや、リードオンリーのDBなら可能だと思うが
Re: (スコア:0)
ユーザ側でやればいいんじゃね。クラウド側が自動でやるならもうリージョンなくなるな。
Re: (スコア:0)
可用性セット
Re: (スコア:0)
GCEやAWS Lambdaみたいないわゆる「サーバレス」、ユーザが触れない謎の処理系に生コードをうpして結果だけもらうアーキテクチャなら、クラウド事業者の方で面倒見てるんじゃない? それじゃ太古の負債が引き継げないという理由でリージョン固定のVPSが持て囃されるんだから、それだったら自己責任だよね。
Re: (スコア:0)
リージョン固定はデータの保持やサービスを提供するサーバの所在国を固定する意味合いでやることも有るらしいよ。
それが理由だと国内でのバックアップは出来ても全世界でバックアップ掛けるのは(少なくとも一部のプランでは)出来ないだろうし、
そもそもバックアップ掛けるにしても遠く離れたDCまでデータ同期掛けるのは専用に回線確保しててもコスト高いだろうしうーん。
Re: (スコア:0)
大使館内や船上のデータセンターならいけるか?
回線の細さやコストはどうしようもないだろうが。
Re: (スコア:0)
GCEはIaaS、GCPのサーバレスはCloud Functions。
細かいですが、お間違いなきよう。
データセンターは障害時に真の価値がわかる (スコア:0)
さくらインターネットの石狩データセンターの一件といい、
データセンターは障害が起こって初めて真の価値がわかるってものですね。
Re:データセンターは障害時に真の価値がわかる (スコア:1, 興味深い)
Azureってデータセンタ障害が比較的多い気がするんですよね
去年の春には東日本リージョンで大規模障害やらかしてるんですよね
このときは落雷が原因ではないのですが、電源設備障害→冷房停止→自動シャットダウンという今回と全く同じ流れ
もうちょっと過去の教訓とかそういうので、信頼性を何とかしてほしいなーという感じです
https://www.publickey1.jp/blog/17/azure71.html [publickey1.jp]
https://blogs.technet.microsoft.com/jpaztech/2017/04/03/rca34296489/ [microsoft.com]
Re: (スコア:0)
でも平然と対処できた場合にはニュースにもならんから、一般に知られないという罠。
※石狩データセンターの奇跡、的な記事がどっかに上がってたけど、奇跡ってのは運を天に任せて幸運だった、ってことなので、十分準備して対応できた今回のケースは奇跡じゃないよなー、とか思うね。
※安易に○○の神、みたいに人をおだてるのと同じような、奇跡の濫用だねぇ。
Re: (スコア:0)
「軌跡」のtypoですよ。きっと。
Re: (スコア:0)
>十分準備して対応できた今回のケース
UPSの不具合で発電機の起動に失敗してるので、
「十分準備したつもりで対応できなかったケース」だと思ってますが…。
北海道にあるDCはさくらだけではなく、さくら以外は大きな障害もなく稼動し続けたので。
Re: (スコア:0)
「発電機の起動に失敗した」のソース希望
Re: (スコア:0)
普通に考えてUPSは発電機の起動までの繋ぎだろうから、発電機自体は関係ないよねぇ
Re: (スコア:0)
でも稼働率99.9999%を99.99999%にするとかは割とどうでもいい気がするのよね。
特にその数時間の為にどれだけコストを割り増すのかと考えると、過剰性能なユーザーは結構多いと思う。
そうしてデータセンターが社会インフラとなって耐障害性で競争してるとそのうち低コスト・中品質なところが出てきそう。
実際障害が起きるまでは100%だし、既存メーカーは初期のトラブルが足かせになって統計上の稼働率を上げるにも限界があるし。
AWS-Azure間のリージョン冗長性があってもよさそう (スコア:0)
GCPでもいいけど枠超えた災害対策要検討
あれ? (スコア:0)
クラウドって、各サーバが国を超えてデータをバックアップしあってるから、
例えば日本国内のサーバがダウンしても海外のサーバで運用可能とか、
そういうんじゃなかったっけ?
それとも、あくまでもその地域のリージョン(言語)で動かなかっただけで、
例えばアメリカ本国サーバに接続してデータは見れたとか、
アメリカ本国のサーバに接続してOffice365は動かせたとかなんかな。
Re: (スコア:0)
AWSもAzureも、そんな事(例えば日本国内のサーバがダウンしても海外のサーバで運用可能)は一言も謳ってないですよ
リージョンを超えたフェイルオーバーやディザスタリカバリは、オプションだったりユーザ側でやれのスタンスです
Re: (スコア:0)
そうそう。なぜか独り歩きしてAWSやAzureはリージョン間で冗長化してあるから
サービスの待機系は不要(データバックアップは別)とどこかで聞いてくる人がいて困る。
例えばAzureでもストレージをGRSにしないといけません。LRSやZRSは冗長性はあっても
今回のさくらの様にリージョン全域での停電だと、データの保全性はあってもサービスは継続できませんよね。
で、GRSで見積もり出すと「高い」と言われる・・・
Re: (スコア:0)
リージョン越えてバックアップしてるから問題ないっていうのは、
googleなりMSの自社サービスでは?
googleの検索サービスや広告配信サービス、
MSの自社HP閲覧、bingの検索サービスとか
Re: (スコア:0)
コメ元です。
皆さん、説明ありがとうです。
そうか...基本的にこれはオレの勘違いなんですね。
何でこんな勘違いしてたんだろう。
そうすると、クラウドのメリットって、どこからでも会社のサーバに接続できる事と、
サーバのハードウェアを自社で持つ必要がないって事だけかな。
バックアップもクラウドでやってくれてるという話はあるけれど、
リージョンのサーバが完全ダウンしたら結局会社のデータを見る事ができないし、
リージョン内でしかバックアップしてなくて、例えばそこサーバ自体に水没とか火災とかがあったら、
そのバックアップもダメになる可能性が高い訳だよね。
そうなると、クラウドに関するメリットに魅力は感じないなぁ...
むしろ、自身がデータもハードもどうにかできる状態じゃないって、デメリットが大き過ぎるように感じるよ。
Re: (スコア:0)
従来のシステムの延長でクラウドを利用しようと考えているからですね。
低レベルからクラウドに合わせたシステムを構築すればさまざまなメリットが得られます。
そうでないならほとんど意味ない。
Re: (スコア:0)
IaaSであれば、
・ハードウェアメンテをする必要がない
・OS層より下のセキュリティ管理をクラウド業者に任せることができる
・パブリッククラウド業者の強力なネットワークを使うことができる
・使いたい時だけサーバを増やすことができる
などのメリットがあります。
>リージョン内でしかバックアップしてなくて、例えばそこサーバ自体に水没とか火災とかがあったら、
>そのバックアップもダメになる可能性が高い訳だよね。
クラウド以外とはどういう想定をしているのかわかりませんが、例えば自社サーバであるなら、自社が火災にあった時の対策はどうするのでしょうか?
複数の自社拠点に分散してバックアップをさせるのでしょうか?
分散バックアップを自前でやるなら、クラウド上で自前で複数リージョンにバックアップするほうが楽です。
コマンド一発だったりして、非常に簡単なのですから。
それでもデメリットが大きいと感じるのでしょうか?
なんでデメリットが大きいと感じてるのか、まったく分かりません。
Re: (スコア:0)
各社リージョン間でデータ同期を行うための仕組みは色々提供されてますよ。
ただ、法律などでのデータ移動の制限があるので、「自動では」やらないというだけです。
Re: (スコア:0)
単に日本国内と海外のリージョンを使うように設定しておけばいいんじゃないの。その分お金かかるけど。
Re: (スコア:0)
一般の人々には「クラウド」ってのが、そもそもよく分からない魔法のようなものでなんかどっかのコンピュータのかたまりがなにかをしている、という認識になってるのではないかなあ。というか言ってる私がこの認識。
いや、本当の問題は電源トラブルではなく…… (スコア:0, 荒らし)
Gigazine 記事 [gigazine.net]ですが
ということで、追加のサービス停止を嫌ってか、ただ面倒臭がってか横着したのが原因のようですよ。
追加の停止は SLA に影響するなど、何等か事情があったのかもしれませんが同情はできません。