電源故障で電力供給が4分間停止、日本IBMのデータセンター障害 72
ストーリー by hylom
また保守時の電源トラブル 部門より
また保守時の電源トラブル 部門より
2月23日午前、日本IBMのデータセンターで障害が発生し、住信SBIネット銀行や複数の地方銀行、JRAなどのシステムの一部が利用できない状況となった(朝日新聞、netkeiba.com)。この障害は夕方には復旧したが(NHK)、この障害は定期保守時に電源装置が故障したことから発生したという(日経xTECH)。
問題が発生したのは関東地方にあるデータセンターで、電源装置の1つに複数の故障が発生し、約4分間電力供給が途絶えたという。
IBMが関連するさまざまなシステムで障害が発生したことから、当初からIBMのインフラにトラブルがあったことは指摘されていた(市況かぶ全力2階建)。
日本IBMのクラウド事業責任者がどういいつくろうのかな? (スコア:0)
注:元ミスターオラクルの「三澤智光氏」が日本IBMの取締役専務執行役員 IBMクラウド事業本部長
ところで、2020年にオラクルがクラウドナンバーワンになるという話はどこに行ったのでしょうか?
Re:日本IBMのクラウド事業責任者がどういいつくろうのかな? (スコア:2, おもしろおかしい)
「掃除のおばちゃんがアレしちゃって」
Re: (スコア:0)
ところで、2020年にオラクルがクラウドナンバーワンになるという話はどこに行ったのでしょうか?
オラクル「(もう)興味ないね」
Re: (スコア:0)
オラクル 「まだ2019年12月88日だ。」
#いや、ではなくてオラクルの2020年は永遠に終わらないって流れになるかと。
全電源喪失! (スコア:0, すばらしい洞察)
って騒ぎ立てないの?>マスゴミ
Re:全電源喪失! (スコア:1)
マスコミ「謎のIT企業が電源喪失したぐらいじゃ、記事にならないよ」
Re: (スコア:0)
マスコミ「で、国際事務機器ってどういう会社なん?」
Re:全電源喪失! (スコア:2)
こういう会社です [kokusaijimuki.co.jp]
Re: (スコア:0)
日本ワットソンです。
Re: (スコア:0)
(原因が)初歩的なことだよ。ワトソン君。
Re: (スコア:0)
四分間電源が喪失したくらいでダウンしていいの?
UPSとか非常用発電機とかないんですかそういうのは
Re:全電源喪失! (スコア:2)
「保守」時のトラブルだからね。
想定外のこともあるだろうからね。
要するに、保守作業でのミスというか大やらかしじゃないの?
Re:全電源喪失! (スコア:1)
停電が発生したら“そのまま動く”ようになってるのは稀で
停電が発生したら停止シーケンスが稼働して非常用電源がもつうちに安全に停止させるってのが一般的らしいですよ
どれぐらい停電するかわからないときは特に
# データが破壊されないように止めるのって結構手間と時間がかかります
Re: (スコア:0)
連日 各マスコミの報道にあまねく目を通して
ご自分の意に沿わないことにイライラすることが多いんでしょうかね
大変な日々ですね
お悔やみ申し上げます
Re: (スコア:0)
君は何と戦ってるんだい?
大手クラウド業者の真似しなくてもいい (スコア:0)
大手クラウド業者は、DC内のサーバにさらに個別にUPSつけるなんて二重投資はしないが、
基幹業務につかってる顧客は、たとえDC内サーバでも、さらにUPSつける二重投資をしてもいいとおもうよ
Re: (スコア:0)
そうすると今度は、(DC設備の電源が故障してなくても)UPSが故障して電源が供給されないって事態が...。
これって”2系統”化してるわけではないから、効果は薄いのでは?
Re: (スコア:0)
電源ユニット2系統つけといて、
(ラックに入れた)自分のUPSと、センタのCVCF経由の電源として使えば良いのでわ?
Re: (スコア:0)
では
Re:大手クラウド業者の真似しなくてもいい (スコア:2, すばらしい洞察)
> フル稼働中では電源1つでは、電力をまかなえないタイミングが存在する
冗長目的で電源を2個付ける場合、全力稼働時だろうが片方だけで動かないのは
ただの設計ミスです。
100V20Aの範囲内に収めるために2系統から電源を取得する場合はありますが、
そのクラスのサーバを動かそうってんならそもそも100V30Aとか200V20Aとかの
電源工事をするのが基本であり、安定動作を考えるなら2系統から取ろうという
考え自体が論外です。故障する可能性がある場所が増えるだけなので。
Re:大手クラウド業者の真似しなくてもいい (スコア:1)
それは設計ミスです。1系統死んでも残りの系統で維持できなければいけません。
1系統だけでどうしても駄目なら合計3系統にするとかいろいろ。
Re: (スコア:0)
別に設計ミスじゃなくね?
障害とピークが重なるなんて滅多に起きないケースは諦めるぐらいの思想かもしれないし。
絶対維持しないといけないならActive/Standby構成にするでしょう。
Re:大手クラウド業者の真似しなくてもいい (スコア:1)
どう見ても設計ミスです。電源が一本落ちているとピークに耐えられないのは単に電源容量不足。
3本引いて2本生きていれば稼働できるなら冗長化になってますが、2本引いて1本死んだら耐えられないのでは故障率上がってます。
Re: (スコア:0)
それは設計がクソなのでわ?
電源2系統から引いといて、片系が逝ったらもう一方が過負荷で全断なんて損賠ものでしょ
Re: (スコア:0)
さらに二重化、ヨシ!
(自分がだめでも相手がちゃんとカバーするだろう)
Re: (スコア:0)
それをリリース前のテストで、実際に機能するかテストしてからリリースするので、
通常は問題ないでしょう
ストレステストになって良い (スコア:0)
1箇所のセンターが落ちたら業務が止まる銀行ってあるんだね。
改善しなけりゃ実際に災害が発生した時も、同じことが起こる可能性が高い。
利用者としては預金を引き出して別の信頼できそうな銀行に預け直すことしかできないな。
Re:ストレステストになって良い (スコア:3, おもしろおかしい)
「科学者は100%安全だと保証できないものは動かしてはならない」、科学者「えっ」、プログラマ「えっ」
Re: (スコア:0)
まずはその科学者自身の動作を止めないとだめだね
Re: (スコア:0)
菅直人の声で再生されました。
Re:ストレステストになって良い (スコア:1)
復旧が遅れたのは、DBやデータの整合性チェックに時間がかかったのでは?
中継サーバ等でとったログと、機関サーバのログ・データが一致してるかどうか
確認しないといけないからな
振り込みや引き落としが反映されていなかったり、
二重振り込みやら二重引き落としがおこったりしてはいけないので
Re: (スコア:0)
元ACだけど、銀行の勘定系システムなんだから、東西にデータセンターを持ち、
並列冗長くらいしているのが普通なんじゃあないの?と思ったので。
少なくとも都市銀ならやってると思う。
ある一部の取引とか商品に限定して動かないのはしょうがないと思いますが、
入出金から全て出来なくなるのは金融庁に怒られるんじゃないのかな?
Re:ストレステストになって良い (スコア:2)
IBMであれば、DS8K辺りをストレージとして利用していると思います。
これだとメトロミラー、グローバルミラー [ibm.com]で運用できます。メトロミラーだと完全同期なので、データ損失は発生しません。
どちらかというと、別系統に切り替える人間的な決断速度や手前の回線切替等に時間が必要です。
Re:ストレステストになって良い (スコア:1)
お、CAP定理を覆す新技術ですか。
Re: (スコア:0)
東西データセンター間で完全にデータが同期出来てると保証されてるならともかく、
稼働中に電源落ちたみたいなパターンだと、整合性チェックは必須でしょ?
計画的に切り替える場合はともかく、
突然片方電源断みたいな場合、そうはいかないのでは?
Re: (スコア:0)
「1箇所のセンターが落ちたら」「DBやデータの整合性チェックに時間がかかっ」て、結果「業務が止まる銀行」になるということでしょ?
その日に復旧できたから良かったものの、翌営業日にズレ込んでいた日にぁ、25日だよ決済日だよ給与支払日だよ。
Re: (スコア:0)
そこで24時間手数料無料で出し入れできるタンス銀行がおすすめ
年金やボーナスの預け入れもお近くのタンス銀行へどうぞ
Re: (スコア:0)
大金が盗まれる
Re: (スコア:0)
大金などない(ドヤー)
Re: (スコア:0)
タンスがない。
Re: (スコア:0)
滅多に起こらない災害に備えるためにシステムの運用経費を増大させるくらいなら、
そういうリスクは保険でカバーして浮いた運用経費で少しでも預金金利を上げたり各種手数料を低減してくれたほうが利用者としてはうれしい。
で、詳しい人的にはどうなの? (スコア:0)
「まあ、しゃあーないよね」なのか「これだからIBMは!」なのか
Re:で、詳しい人的にはどうなの? (スコア:1)
他人事だったら笑ってられるけど当事者は…
MicrosoftもAmazonもGoogleも通った道です
Re: (スコア:0)
大して詳しくはないけれど、「しょーがない」に一票。
大体、システムの保守日(休業日)が確保できないほどに稼働率が高過ぎる、現代社会的な問題だよね。
日程にしても、連休中にやること事体が、この様な事故が起きたときの影響が比較的低い(平日よりも)と見積もったのだろうし。
自然災害の様にシステム障害も慣れた。
ほかにも、インフラ障害は老朽化を原因として、これから増加するだろうし。ほんと老朽化だけはどうしようもない。。
Re: (スコア:0)
個人的には、毎月第〇月曜午前2時~4時くらいを一斉停止日に指定して、
ATMやネットバンク一斉に止めればいいとおもう
月1回2時間の停止時間が得られれば、システム改修が容易になる
Re:で、詳しい人的にはどうなの? (スコア:1)
Re: (スコア:0)
まあ、100点以外満足しないのが、他人ですからね。(怖) [youtube.com]
またまたまた~~~、精神病んで退職する人が4,5人は出るんじゃないかと、そちらの方が心配。(この業界、人は、ほとんど死なないけど、精神やられて戦線離脱は毎度のこと。)
/* しかし、小学生向けのマンガでさえそれというのは日本人の病的気質を物語る。嘆息。海水に浸かった田畑じゃ作物ができるわけもない。 */
Re:で、詳しい人的にはどうなの? (スコア:1)
水道の水は透明で(まずくても)飲料に使える前提ですよね
Re: (スコア:0)
詳しい人的には、現場の右往左往っぷりが容易に想像できてしまうので、声を出す前にまず涙が出てきます。
これかな? (スコア:0)
某動画配信サービスがHDDクラッシュしてデータ吹っ飛びましたゴメンねメールを23日にもらいました。
一応バックアップから復旧はできたよと言ってましたが、当然復旧不可ファイルも発生。
休出なんかしないもんねーと本日まったり復旧。
3連休真ん中ですよ。働きませんよ?