パスワードを忘れた? アカウント作成
13989805 story
クラウド

AWS東京リージョンで大規模障害、原因は冷却システムの故障 103

ストーリー by hylom
設備系はなかなか予想しづらいところ 部門より

Anonymous Coward曰く、

8月23日の昼頃から数時間にわたり、クラウドサービス「Amazon Web Services(AWS)」の東京リージョンで大規模な障害が発生、多数の企業のサービスに影響が出るトラブルとなった(ITmediaITmediaの続報ASCII.jp日経xTECHEngadget日本版)。

AWSの東京リージョンは4つのデータセンター(アベイラビリティーゾーン)から構成されているとのことだが、Amazonの発表によると、そのうち1つで空調設備の管理システムに傷害が発生。その結果一定数のサーバーが過熱によって停止したという。冷却装置は15時21分に復旧し、その後18時半ごろには大部分のサーバーが復旧したという。

空調設備の管理システムは冗長化されていたが、管理システムのロジックにバグがあり、制御ホストの切り替え時に制御システムが応答しなくなる事態になったという。また、制御システムに傷害が発生した場合は冷却システムは最大冷却になるよう設計されていたが、データセンターの一部でこの構成に移行できず停止。さらに、問題になるデータセンターのエリアで冷却システムを「パージ」モードに切り替えて熱風を排出することを試みたものの、これも失敗したという。最終的に不具合のあった制御システムのリセットで対応を行ったという。

クラウドの普及によりAWSを使うサービスは多岐にわたっており、今回の障害では決済アプリのPayPayが使用できなくなったほか、dTVやローソンアプリ、Backlog、各種ソーシャルゲーム、果てはシェアサイクルの返却ができなくなるなど、大きな影響が出た模様である。

typodupeerror

アレゲはアレゲを呼ぶ -- ある傍観者

読み込み中...