
障害発生、その原因は? 49
ストーリー by headless
原因 部門より
原因 部門より
Uptime Institute の 2022 年版 Outage Analysis 報告書によると、重大な障害の発生原因で最も多いのは電源障害だという
(プレスリリース、
The Register の記事)。
報告書は複数の調査や Uptime Institute のメンバーおよびパートナーから提供された情報、公表された障害の情報をまとめたものだ。ダウンタイムや経済的損失を引き起こす重大な障害の 43 % が電源に関連する障害だといい、特に UPS の故障が多いそうだ。
その一方で、深刻度にかかわらず IT サービスのダウンタイムを引き起こした障害の原因はネットワークに関連する問題であり、ニュースとして報じられるような一般向けサービスの障害は 70 % がクラウドなど外部の IT プロバイダーに起因する問題だという。また、過去 3 年間に 40 % の組織がヒューマンエラーに起因する大きな障害を経験しているが、その 85 % はスタッフが手順を守らなかったことや手順自体の欠陥が原因とのこと。
過去 3 年間で重大な障害はわずかに増加しており、損害額が 10 万ドルを超える障害の割合は 2019 年の 39 % から 60 % に増加、損害額 100 万ドルを超える障害の割合も同期間で 11 % から 15 % に増加している。復旧までの時間も長くなる傾向がみられ、復旧に 24 時間以上かかった障害の割合は 2017 年の 8 % から 2021 年には 30 % 近くまで増加したとのことだ。スラドの皆さんのところはいかがだろうか。
報告書は複数の調査や Uptime Institute のメンバーおよびパートナーから提供された情報、公表された障害の情報をまとめたものだ。ダウンタイムや経済的損失を引き起こす重大な障害の 43 % が電源に関連する障害だといい、特に UPS の故障が多いそうだ。
その一方で、深刻度にかかわらず IT サービスのダウンタイムを引き起こした障害の原因はネットワークに関連する問題であり、ニュースとして報じられるような一般向けサービスの障害は 70 % がクラウドなど外部の IT プロバイダーに起因する問題だという。また、過去 3 年間に 40 % の組織がヒューマンエラーに起因する大きな障害を経験しているが、その 85 % はスタッフが手順を守らなかったことや手順自体の欠陥が原因とのこと。
過去 3 年間で重大な障害はわずかに増加しており、損害額が 10 万ドルを超える障害の割合は 2019 年の 39 % から 60 % に増加、損害額 100 万ドルを超える障害の割合も同期間で 11 % から 15 % に増加している。復旧までの時間も長くなる傾向がみられ、復旧に 24 時間以上かかった障害の割合は 2017 年の 8 % から 2021 年には 30 % 近くまで増加したとのことだ。スラドの皆さんのところはいかがだろうか。
電源障害 (スコア:1)
サーバーでPSU障害はあるけど、冗長化してるとダウンしづらいですね。
だいたいこんな頻度で交換してました
disk>memory>PSU>>>CPUマザボ
UPSはメーカーおすすめのサイクルでメンテやバッテリー交換していて、サーバーダウンに繋がる障害はあまり無かった。
という環境でした。
Re: (スコア:0)
冗長化しても同時破損することのあるHDDと違って、電源は同時破損という話を聞かないね。
普段は出力半分ずつで、片系壊れると最大出力になる仕組みだと思うけれど、それをトリガーに壊れるとか無いのかね。
最大出力出して壊れるような状態なら、普段の運用でも電流低下とか温度異常を検出して気がつくのかな。(実際、PSUって機能完全停止で交換するのと同じくらい、閾値超え異常値検出で予防交換することが多いし)
HDDはスクラビングしていても、なぜか壊れる時は同時に壊れる。
Re: (スコア:0)
disk>memory>PSU>>>CPUマザボ
・・・>>>マザボ>越えられない壁>CPUじゃないかな
# CPUが初期不良かOC焼け以外で逝く事例知らんもので
スラドはいかがだろうか。 (スコア:1)
年初あたりスラドで障害が頻発してましたが、その原因は何だったんでしょうか?
# あれって結局何のアナウンスもありませんでしたよね?
Re: (スコア:0)
上場企業なんだから、プレスリリースぐらい出せばいいのに
Re:スラドはいかがだろうか。 (スコア:1)
このまま障害復旧あきらめて消えちゃうのかなとちょっと心配でした。
アレなスマホげーみたいに。
Re: (スコア:0)
スマホゲーの運営会社なだけに洒落にならんのよな。ゲームの運営もこんな感じなのか?
Re: (スコア:0)
スラドの障害で株価下落なんてみっともないニュースが出たら笑うしかない
Re: (スコア:0)
ホワイトな運営会社として有名です。
アンチウイルスソフト (スコア:1)
自分が経験した唯一の大規模障害は、Symantec endpoint protectionの定義ファイルバグによって引き起こされたなあ。
ある日突然、社内のすべてのWindowsPCがブルースクリーンになったの。
「あっ」「えっ」「落ちたっ!!」「なんで」「おいお前もか」「LANケーブルを抜け!IT部門に連絡しろ!」「電話が繋がりません、ずっと話中です!」
こんな感じの阿鼻叫喚になった。
その後社内放送で原因がアナウンスされ、「PC遅くするだけの役立たずかよ」「ゴミ」「カス」「帰るか」「こんなのに年間いくら払ってんだよ」ってなった。
Re:アンチウイルスソフト (スコア:5, 参考になる)
これかな?
シマンテックの法人製品でトラブル、定義ファイル更新でブルースクリーン発生 [impress.co.jp]
Re: (スコア:0)
> ある日突然、社内のすべてのWindowsPCがブルースクリーンになったの。
> 「あっ」「えっ」「落ちたっ!!」「なんで」「おいお前もか」「LANケーブルを抜け!IT部門に連絡しろ!」「電話が繋がりません、ずっと話中です!」
使徒来襲のBGMが似合う光景ですね。
ブルースクリーンだけに「パターン青! 使徒です!」みたいな...
空調の故障 (スコア:1)
オンプレミス中心の時代は、通常の事務室にサーバーを置いたら
空調の故障でダウンということが結構あった。
特に「冷房に設定していたのにいつの間にか暖房になっていた」という故障パターンが厄介なので
「できれば冷房専用にしてほしいけど、人間(お客様)が同じ部屋で勤務されているから無理だろうな」などど考えていた。
ヒューマンエラー (スコア:0)
人間の間違いは大体手順の間違い。
手順の間違いの理由は「なぜこの手順じゃないとだめなのか」という説明が書いていないか分かりにくい。
運用フェーズから入ると構築フェーズで苦戦したこととか注意事項とか残してくれていないとだめな理由が理解できない。そして失敗する。
製品ベンダーの書き方が悪い?それはご尤もだけどIBMやoracleに聞いてまともな回答は期待できない。
Re:ヒューマンエラー (スコア:1)
運用者に手順の検証まで求めるなよ。
よく海外では契約以外のことはしないといわれるが実際その通りで、「この手順で」と言われたらその手順でしかやらない。
失敗するのは手順通りしなかったからだが、それは内容を理解しているかとは関係がなく、単に間違っただけ。
手順の理由を説明したって無意味だし、そもそもダメな理由を理解する必要もなくて手順通りやればいい。
勝手なアレンジするのはそもそもおかしいわけだ。
Re: (スコア:1)
わかる
だが、その運用なら、「自分で考えろよ、頭ついてんだろ」はナシな
考える頭は、「これは自分のマニュアルの範囲か」の判断に集中するので
Re: (スコア:0)
当然だろ、頭ついていないと思えって。
そんなことしてるから属人的な運用になるんだよ。
Re: (スコア:0)
契約以外の仕事はしない運用なら、手順が間違ってる時は
「エラー。手順に問題があります。実行できません。」で中止するのが正しい
勝手に手順を書き換えたら上手く行こうがクビが正しい
明らかにダメな手順だったら自分のせいじゃないって証拠だけ集めて笑って見てるのが正解
Re: (スコア:0)
明らかにマニュアルがおかしいのに、「現場で異常を検出し回避せよ」ってのをマニュアルに盛り込んであるのがブラック企業
Re: (スコア:0)
それだけならおかしくない、そこに「停止禁止」「例外通知パス潰し」が入ってる
Re: (スコア:0)
明らか死人が出るのを見過ごすと会社のルールよりも社会的制裁が優越したりするんで程度問題
「ワーニング。死者発生のリスクがあります」で立ち止まることも時には必要
大抵は事故発生の前提条件があるから
「事故条件満たさない(ように作業者が関知しない領域で対策済みである)事を保証した上での命令」
の形に誘導した上での作業にしておきたい
Re: (スコア:0)
手順通り溶解塔でウラン処理するの効率悪いな...
ひらめいた! バケツを使えば効率化できる!
Re: (スコア:0)
わかる
だが、その運用なら、「自分で考えろよ、頭ついてんだろ」はナシな
命令者のメンタルヘルスケアも従事者の業務なのでハラスメントは認定されません
までが日本企業のテンプレでしたからねぇ
/*
事を大きくすればなんとかできなくもないが
内部告発情報をその企業へリークされる事例もあるあるっていう
*/
Re: (スコア:0)
運用を「エンジニア」にするか「オペレータ」にするかのポリシーの違いだね
オペレータが完全にマニュアル通りにやって、マニュアルに無いところはすべて上やエンジニアに投げる体制なのか、
通常運用でエンジニアが必要になる体制なのか、で異なる
Re:ヒューマンエラー (スコア:2)
ISO9001の思想なんですよね。
・現場にマニュアルを守らせる
・マニュアル破りを繰り返すオペレータは、懲戒処分に処する
・マニュアルによって発生した事象は、経営側が責任を負う
日本では、権限を手放したくない現場、責任を負いたくない経営陣というカップリングだから、
ISOを返上するような企業が増えている。
Re: (スコア:0)
それISO9001を理解しないクソ運用なんじゃないの。
マネジメントが必須なのであって、文書化やマニュアルは必須ではない。
Re:ヒューマンエラー (スコア:2)
「基準を作れ」「実施した記録を残せ」「それらはちゃんと定期レビューしてる?」と詰められますので、事実上必須です。
Re: (スコア:0)
マネジメント基準を作る必要はあるけどマニュアルは必須ではない。
だからマニュアルに反したから懲戒というのもISO9001の問題じゃない。
それは御社のISO9001の運用がクソだから起きる問題。
まぁISO9001の認証取るためだけの安い監査会社入れると、こういう運用になりがちなのは分かる。
金掛けずにやるなら内部監査も外部監査も形だけしかレビューできないから。
Re:ヒューマンエラー (スコア:2)
本当に懲戒するかはともかくとして、ISOは経営ツールなので、トップダウン型が嫌な人には居心地悪い会社になりますね。
むしろ、繫忙期にスタッフを大量採用し、閑散期にはみな雇止めするような人の出入りが激しい事業所だと、ISOマネジメントはしっくり合致します。
Re: (スコア:0)
ならないよ。
トップダウン型が嫌な人には居心地悪い会社になるのは運用がクソだからであって、ISO9001の問題じゃない。
ISO9001は単なるツールに過ぎず、うまく使うのもクソのような運用するのもその会社次第。
そもそも、国内外問わずほぼすべての大企業がISO9001を取得して運用していることをどう考えているのだろう?
それとも「トップダウン型が嫌な人」は全て居心地悪いと感じながらそういう会社に属しているとでも言うのかい。
Re:ヒューマンエラー (スコア:2)
>ほぼすべての大企業がISO9001を取得して運用している
取得範囲を狭めているのでは。工場の特定のプロセスのみに適応すると。
多くは、取れと言われているから取っているだけ。
Re: (スコア:0)
その大前提がマネージメント層がオペレータが完全にマニュアル通りにやれる体制・リソースを投入維持する事であり、日本では多くの場合それが出来ていない。
みずほ・東電・北電・もんじゅ・トヨタ・三菱電機・保健所を含め。
だから已む無く現場で手を抜く、それがエンジニアであろうとオペレータであろうと。
Re: (スコア:0)
手を抜く工夫するRe: (スコア:0)
手順は当然マニュアル化するのですが、例えばコマンドの実行順序を表すために、コマンド名の先頭を数字にして、実行順序そのものを表すようにしています。
ところで、障害発生時に本番系と待機系の自動切り替えの機能があるのですが、うまく動作することはあまりない印象です。同様に日々コツコツとっていたバックアップもいざというときに何かが足りなかったり、形式が合わなかったりで、役に立つ確率は低いです。
航空機の設計のように、壊れやすいところをわざと作っておき、そこが他よりも早い段階で壊れるようにする、という設計を試してみたいです。
Re: (スコア:0)
航空機の設計のように、壊れやすいところをわざと作っておき、そこが他よりも早い段階で壊れるようにする、という設計を試してみたいです。
ストレージにクォータの設定しておけばストレージがフルになってどうにもならなくなる前に処理が失敗するとかそういうのだろ。
みんな普通にしてるはずだが。
してないのか?
Re: (スコア:0)
みんな普通にしてるはずだが。
してないのか?
「共有フォルダーにクォータ以上のファイルを作るとどうなるか」で議論になり、fsutilでクォータの2倍のファイルを作ったら、
EMC Celerra NSXごと落っこちて、情シスから怒られた。
Re: (スコア:0)
意図して軽微な障害を起こすカオスエンジニアリング [principlesofchaos.org]の方があってそうだけど。
Re: (スコア:0)
俺ぐらい熟練したプログラマになると、意図しなくても軽微な障害を起こせる。
Re: (スコア:0)
嘘つくな、軽微じゃないだろ。
Re: (スコア:0)
手順書
1.コンセントに刺さっているプラグを引き抜く
2.掃除機のプラグをコンセントに刺す
3.掃除機をかける
4.掃除機のプラグを抜く
5.コンセントに元々刺さっていたプラグを刺し直す
この手順でないと掃除機をかけることができないため。
Re: (スコア:0)
「今日なんで掃除かかってないの?」
「掃除担当からエラー報告上がってましたよ」
「そうか、原因解析とフィードバックやっておけよ」
↓
「あの、この先に何も繋がってない10cmの延長コードってなんで刺さってるんです?」
「さあ?」
なにを「障害」というか (スコア:0)
バグは勘定に入れません?
それとも、障害じゃなくて日常とか通常運転って呼ぶ?
Re: (スコア:0)
みずぽ銀行「せやな」
Re: (スコア:0)
M社「仕様です」
Re: (スコア:0)
障害とはなにか。うちの会社ではそんなこと考えません。
冗長化されていて支障がなくても、動かない部位があれば障害としてカウントされます。
上層部からは常に怒られ、部門別評価は最低です。
おかげで、我が部署のメンバーは皆、強靭な精神力を会得しました。
障害は人を育てるんだなぁ・・・
Re: (スコア:0)
精神力は得られても、視野はブリンカーつけた競走馬並みに削られてそうだが
よっぽど素晴らしい待遇なのだろうか
リチウムイオンUPS (スコア:0)
発火事故もそこそこあるみたいだけど大丈夫か?
家庭用だと鉛のラインナップもないし電源守ろうとして家全焼とか笑えんぞ
Re: (スコア:0)
UPS命ならバラックでバススルーで組めばOKじゃネ!