パスワードを忘れた? アカウント作成
15696016 story
お金

障害発生、その原因は? 49

ストーリー by headless
原因 部門より
Uptime Institute の 2022 年版 Outage Analysis 報告書によると、重大な障害の発生原因で最も多いのは電源障害だという (プレスリリースThe Register の記事)。

報告書は複数の調査や Uptime Institute のメンバーおよびパートナーから提供された情報、公表された障害の情報をまとめたものだ。ダウンタイムや経済的損失を引き起こす重大な障害の 43 % が電源に関連する障害だといい、特に UPS の故障が多いそうだ。

その一方で、深刻度にかかわらず IT サービスのダウンタイムを引き起こした障害の原因はネットワークに関連する問題であり、ニュースとして報じられるような一般向けサービスの障害は 70 % がクラウドなど外部の IT プロバイダーに起因する問題だという。また、過去 3 年間に 40 % の組織がヒューマンエラーに起因する大きな障害を経験しているが、その 85 % はスタッフが手順を守らなかったことや手順自体の欠陥が原因とのこと。

過去 3 年間で重大な障害はわずかに増加しており、損害額が 10 万ドルを超える障害の割合は 2019 年の 39 % から 60 % に増加、損害額 100 万ドルを超える障害の割合も同期間で 11 % から 15 % に増加している。復旧までの時間も長くなる傾向がみられ、復旧に 24 時間以上かかった障害の割合は 2017 年の 8 % から 2021 年には 30 % 近くまで増加したとのことだ。スラドの皆さんのところはいかがだろうか。
この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
  • by nemui4 (20313) on 2022年06月11日 14時15分 (#4267134) 日記

    サーバーでPSU障害はあるけど、冗長化してるとダウンしづらいですね。
    だいたいこんな頻度で交換してました
    disk>memory>PSU>>>CPUマザボ

    UPSはメーカーおすすめのサイクルでメンテやバッテリー交換していて、サーバーダウンに繋がる障害はあまり無かった。

    という環境でした。

    • by Anonymous Coward

      冗長化しても同時破損することのあるHDDと違って、電源は同時破損という話を聞かないね。
      普段は出力半分ずつで、片系壊れると最大出力になる仕組みだと思うけれど、それをトリガーに壊れるとか無いのかね。

      最大出力出して壊れるような状態なら、普段の運用でも電流低下とか温度異常を検出して気がつくのかな。(実際、PSUって機能完全停止で交換するのと同じくらい、閾値超え異常値検出で予防交換することが多いし)

      HDDはスクラビングしていても、なぜか壊れる時は同時に壊れる。

    • by Anonymous Coward

      disk>memory>PSU>>>CPUマザボ

      ・・・>>>マザボ>越えられない壁>CPUじゃないかな

      # CPUが初期不良かOC焼け以外で逝く事例知らんもので

  • by Anonymous Coward on 2022年06月11日 16時21分 (#4267186)

    年初あたりスラドで障害が頻発してましたが、その原因は何だったんでしょうか?
     
    # あれって結局何のアナウンスもありませんでしたよね?

    • by Anonymous Coward

      上場企業なんだから、プレスリリースぐらい出せばいいのに

      • by Anonymous Coward on 2022年06月12日 12時21分 (#4267471)

        このまま障害復旧あきらめて消えちゃうのかなとちょっと心配でした。
        アレなスマホげーみたいに。

        親コメント
        • by Anonymous Coward

          スマホゲーの運営会社なだけに洒落にならんのよな。ゲームの運営もこんな感じなのか?

          • by Anonymous Coward

            スラドの障害で株価下落なんてみっともないニュースが出たら笑うしかない

          • by Anonymous Coward

            ホワイトな運営会社として有名です。

  • by Anonymous Coward on 2022年06月11日 19時13分 (#4267257)

    自分が経験した唯一の大規模障害は、Symantec endpoint protectionの定義ファイルバグによって引き起こされたなあ。
    ある日突然、社内のすべてのWindowsPCがブルースクリーンになったの。
    「あっ」「えっ」「落ちたっ!!」「なんで」「おいお前もか」「LANケーブルを抜け!IT部門に連絡しろ!」「電話が繋がりません、ずっと話中です!」
    こんな感じの阿鼻叫喚になった。
    その後社内放送で原因がアナウンスされ、「PC遅くするだけの役立たずかよ」「ゴミ」「カス」「帰るか」「こんなのに年間いくら払ってんだよ」ってなった。

  • by miishika (12648) on 2022年06月11日 20時24分 (#4267284) 日記

    オンプレミス中心の時代は、通常の事務室にサーバーを置いたら
    空調の故障でダウンということが結構あった。
    特に「冷房に設定していたのにいつの間にか暖房になっていた」という故障パターンが厄介なので
    「できれば冷房専用にしてほしいけど、人間(お客様)が同じ部屋で勤務されているから無理だろうな」などど考えていた。

  • by Anonymous Coward on 2022年06月11日 11時47分 (#4267052)

    人間の間違いは大体手順の間違い。
    手順の間違いの理由は「なぜこの手順じゃないとだめなのか」という説明が書いていないか分かりにくい。
    運用フェーズから入ると構築フェーズで苦戦したこととか注意事項とか残してくれていないとだめな理由が理解できない。そして失敗する。

    製品ベンダーの書き方が悪い?それはご尤もだけどIBMやoracleに聞いてまともな回答は期待できない。

    • by Anonymous Coward on 2022年06月11日 12時02分 (#4267062)

      運用者に手順の検証まで求めるなよ。
      よく海外では契約以外のことはしないといわれるが実際その通りで、「この手順で」と言われたらその手順でしかやらない。
      失敗するのは手順通りしなかったからだが、それは内容を理解しているかとは関係がなく、単に間違っただけ。
      手順の理由を説明したって無意味だし、そもそもダメな理由を理解する必要もなくて手順通りやればいい。
      勝手なアレンジするのはそもそもおかしいわけだ。

      親コメント
      • by Anonymous Coward on 2022年06月11日 15時17分 (#4267170)

        わかる
        だが、その運用なら、「自分で考えろよ、頭ついてんだろ」はナシな
        考える頭は、「これは自分のマニュアルの範囲か」の判断に集中するので

        親コメント
        • by Anonymous Coward

          当然だろ、頭ついていないと思えって。
          そんなことしてるから属人的な運用になるんだよ。

        • by Anonymous Coward

          契約以外の仕事はしない運用なら、手順が間違ってる時は
          「エラー。手順に問題があります。実行できません。」で中止するのが正しい

          勝手に手順を書き換えたら上手く行こうがクビが正しい
          明らかにダメな手順だったら自分のせいじゃないって証拠だけ集めて笑って見てるのが正解

          • by Anonymous Coward

            明らかにマニュアルがおかしいのに、「現場で異常を検出し回避せよ」ってのをマニュアルに盛り込んであるのがブラック企業

            • by Anonymous Coward

              それだけならおかしくない、そこに「停止禁止」「例外通知パス潰し」が入ってる

          • by Anonymous Coward

            明らか死人が出るのを見過ごすと会社のルールよりも社会的制裁が優越したりするんで程度問題
            「ワーニング。死者発生のリスクがあります」で立ち止まることも時には必要
            大抵は事故発生の前提条件があるから
            「事故条件満たさない(ように作業者が関知しない領域で対策済みである)事を保証した上での命令」
            の形に誘導した上での作業にしておきたい

        • by Anonymous Coward

          手順通り溶解塔でウラン処理するの効率悪いな...
          ひらめいた! バケツを使えば効率化できる!

        • by Anonymous Coward

          わかる
          だが、その運用なら、「自分で考えろよ、頭ついてんだろ」はナシな

          命令者のメンタルヘルスケアも従事者の業務なのでハラスメントは認定されません
          までが日本企業のテンプレでしたからねぇ

          /*
          事を大きくすればなんとかできなくもないが
          内部告発情報をその企業へリークされる事例もあるあるっていう
          */

    • by Anonymous Coward

      運用を「エンジニア」にするか「オペレータ」にするかのポリシーの違いだね
      オペレータが完全にマニュアル通りにやって、マニュアルに無いところはすべて上やエンジニアに投げる体制なのか、
      通常運用でエンジニアが必要になる体制なのか、で異なる

      • by ugoo (49322) on 2022年06月11日 14時36分 (#4267152)

        ISO9001の思想なんですよね。
        ・現場にマニュアルを守らせる
        ・マニュアル破りを繰り返すオペレータは、懲戒処分に処する
        ・マニュアルによって発生した事象は、経営側が責任を負う

        日本では、権限を手放したくない現場、責任を負いたくない経営陣というカップリングだから、
        ISOを返上するような企業が増えている。

        親コメント
        • by Anonymous Coward

          それISO9001を理解しないクソ運用なんじゃないの。
          マネジメントが必須なのであって、文書化やマニュアルは必須ではない。

          • by ugoo (49322) on 2022年06月11日 16時12分 (#4267182)

            「基準を作れ」「実施した記録を残せ」「それらはちゃんと定期レビューしてる?」と詰められますので、事実上必須です。

            親コメント
            • by Anonymous Coward

              マネジメント基準を作る必要はあるけどマニュアルは必須ではない。
              だからマニュアルに反したから懲戒というのもISO9001の問題じゃない。
              それは御社のISO9001の運用がクソだから起きる問題。

              まぁISO9001の認証取るためだけの安い監査会社入れると、こういう運用になりがちなのは分かる。
              金掛けずにやるなら内部監査も外部監査も形だけしかレビューできないから。

              • by ugoo (49322) on 2022年06月11日 21時52分 (#4267321)

                本当に懲戒するかはともかくとして、ISOは経営ツールなので、トップダウン型が嫌な人には居心地悪い会社になりますね。
                むしろ、繫忙期にスタッフを大量採用し、閑散期にはみな雇止めするような人の出入りが激しい事業所だと、ISOマネジメントはしっくり合致します。

                親コメント
              • by Anonymous Coward

                ならないよ。
                トップダウン型が嫌な人には居心地悪い会社になるのは運用がクソだからであって、ISO9001の問題じゃない。
                ISO9001は単なるツールに過ぎず、うまく使うのもクソのような運用するのもその会社次第。

                そもそも、国内外問わずほぼすべての大企業がISO9001を取得して運用していることをどう考えているのだろう?
                それとも「トップダウン型が嫌な人」は全て居心地悪いと感じながらそういう会社に属しているとでも言うのかい。

              • by ugoo (49322) on 2022年06月12日 10時53分 (#4267444)

                >ほぼすべての大企業がISO9001を取得して運用している
                取得範囲を狭めているのでは。工場の特定のプロセスのみに適応すると。
                多くは、取れと言われているから取っているだけ。

                親コメント
      • by Anonymous Coward

        その大前提がマネージメント層がオペレータが完全にマニュアル通りにやれる体制・リソースを投入維持する事であり、日本では多くの場合それが出来ていない。
        みずほ・東電・北電・もんじゅ・トヨタ・三菱電機・保健所を含め。
        だから已む無く現場で手を抜く、それがエンジニアであろうとオペレータであろうと。

    • by Anonymous Coward

      手順は当然マニュアル化するのですが、例えばコマンドの実行順序を表すために、コマンド名の先頭を数字にして、実行順序そのものを表すようにしています。
      ところで、障害発生時に本番系と待機系の自動切り替えの機能があるのですが、うまく動作することはあまりない印象です。同様に日々コツコツとっていたバックアップもいざというときに何かが足りなかったり、形式が合わなかったりで、役に立つ確率は低いです。
      航空機の設計のように、壊れやすいところをわざと作っておき、そこが他よりも早い段階で壊れるようにする、という設計を試してみたいです。

      • by Anonymous Coward

        航空機の設計のように、壊れやすいところをわざと作っておき、そこが他よりも早い段階で壊れるようにする、という設計を試してみたいです。

        ストレージにクォータの設定しておけばストレージがフルになってどうにもならなくなる前に処理が失敗するとかそういうのだろ。
        みんな普通にしてるはずだが。
        してないのか?

        • by Anonymous Coward

          みんな普通にしてるはずだが。
          してないのか?

          「共有フォルダーにクォータ以上のファイルを作るとどうなるか」で議論になり、fsutilでクォータの2倍のファイルを作ったら、

          EMC Celerra NSXごと落っこちて、情シスから怒られた。

      • by Anonymous Coward

        意図して軽微な障害を起こすカオスエンジニアリング [principlesofchaos.org]の方があってそうだけど。

        • by Anonymous Coward

          俺ぐらい熟練したプログラマになると、意図しなくても軽微な障害を起こせる。

          • by Anonymous Coward

            嘘つくな、軽微じゃないだろ。

    • by Anonymous Coward

      手順書
      1.コンセントに刺さっているプラグを引き抜く
      2.掃除機のプラグをコンセントに刺す
      3.掃除機をかける
      4.掃除機のプラグを抜く
      5.コンセントに元々刺さっていたプラグを刺し直す

      この手順でないと掃除機をかけることができないため。

      • by Anonymous Coward

        「今日なんで掃除かかってないの?」
        「掃除担当からエラー報告上がってましたよ」
        「そうか、原因解析とフィードバックやっておけよ」

        「あの、この先に何も繋がってない10cmの延長コードってなんで刺さってるんです?」
        「さあ?」

  • by Anonymous Coward on 2022年06月11日 12時36分 (#4267077)

    バグは勘定に入れません?
    それとも、障害じゃなくて日常とか通常運転って呼ぶ?

    • by Anonymous Coward

      みずぽ銀行「せやな」

    • by Anonymous Coward

      M社「仕様です」

    • by Anonymous Coward

      障害とはなにか。うちの会社ではそんなこと考えません。
      冗長化されていて支障がなくても、動かない部位があれば障害としてカウントされます。
      上層部からは常に怒られ、部門別評価は最低です。
      おかげで、我が部署のメンバーは皆、強靭な精神力を会得しました。
      障害は人を育てるんだなぁ・・・

      • by Anonymous Coward

        精神力は得られても、視野はブリンカーつけた競走馬並みに削られてそうだが
        よっぽど素晴らしい待遇なのだろうか

  • by Anonymous Coward on 2022年06月11日 14時03分 (#4267129)

    発火事故もそこそこあるみたいだけど大丈夫か?
    家庭用だと鉛のラインナップもないし電源守ろうとして家全焼とか笑えんぞ

    • by Anonymous Coward

      UPS命ならバラックでバススルーで組めばOKじゃネ!

typodupeerror

計算機科学者とは、壊れていないものを修理する人々のことである

読み込み中...