パスワードを忘れた? アカウント作成
14057937 story
電力

データセンターで電源設備関連の作業中に電源トラブルが発生する事例2件 14

ストーリー by hylom
おそろしい 部門より

多くのデータセンターでは電源停止によるトラブルを防ぐため無停電電源装置が設置されているが、電源関連の設備に関する作業中にこれが動作せず、結果としてサーバーなどが停止する事例が2件発生している。

1つは、11月23日に発生した九州電力子会社QTnetのデータセンターで発生したもの。すでにスラドでも取り上げられているが、日経xTECHによると無停電機能を外して電源設備の更新作業を行っている最中に電力の供給元が予備電源に切り替わり、その際に7秒ほど電力供給が止まったという。

もう1つは、11月25日に岐阜県内のNTTコミュニケーションズのデータセンターで発生したもので、こちらは「無瞬断切替装置の切り替え作業中に過大な電流が流れたためUPSが停止し電源断になった」という。これによって岐阜県内の28自治体のシステムで影響が発生し、住民票や印鑑証明、納税証明の発行などができない状況になったという。

  • by Anonymous Coward on 2019年11月28日 21時22分 (#3723488)

    >無停電機能を外して電源設備の更新作業を行って

    UPSとかって、壁コンセント---UPS---サーバーのようにシリーズにつなぐもので、
    外すためには一度サーバーを落とさなければならないと認識しているのですが、
    文字通りサーバーを落として、配線を繋ぎ変えて、またサーバー立ち上げてたんですかね?

    設備としてのUPSをバイパスするような経路とスイッチを用意してあったってことなのかな。

    ここに返信
    • まず、よくあるスタンドアロンUPSってわけじゃないとは思う(記事があんまり読めないのでわからない)...

      で、サーバ系は電源を2系とかもてるので、片側の系のを落すこと自体は可能だし、その手順で更新すること自体は問題ないはず。

      問題は...「無停電機能を外して電源設備の更新作業を行っている最中に電力の供給元が予備電源に切り替わり」ってことだよな...電源更新(根っこ側)するにしても、まずUPSを万全にしてからやらなきゃだめだと思うので、その意味で手順ミスったように読める。

      詳細を待つしかないかな...

      --
      M-FalconSky (暑いか寒い)
    • by Anonymous Coward

      普通の(ラックマウントの)サーバーは、電源ユニットが2つ以上ついています。
      電源ケーブルもそれぞれにささります。
      1本が生きていればサーバは動くので、片系の電源設備を落としても、サーバは落ちません。

      あと、UPSも、あなたがAPCとかの箱型のUPSを想像しているのであれば、それは違います。
      https://www.ntt.com/business/services/data-center/colocation/nexcenter... [ntt.com]
      こういう感じのやつです。

      まっとうなデータセンターであれば、複数の変電所から電源をとります。
      つまり、ラックマウントされたサーバに2本の電源ケーブルが伸びて

      • by nemui4 (20313) on 2019年11月29日 8時30分 (#3723619) 日記

        >まっとうなデータセンターであれば、複数の変電所から電源をとります。

        自前の変電所や発電設備を備えているDCの話はたまに聞きますね。
        どこまでお金をかけられるかで安全係数が決まりそう。

        PSUを二系統抱いているサーバーで。
        片方のPSUをメンテしているときに、たまたま残りのPSUが壊れたこともあったっけ。

      • by Anonymous Coward

        障害原因
        受電用屋内設備分電盤の過電流継電器の整定不具合により、常用受電が自動遮断しました。
        遮断時は、常用受電から予備受電に無停電で切り替わる機能を有しておりますが、今回の電源設備更新作業にあたってこの機能を外して行う工程(10分間を予定)中に事故が発生したため、電源停止(7秒間)となりました。
        その間当社からお客さまサーバ類への電源供給が失われ、お客さまサービスに影響を及ぼしました。

        データセンターの電源障害による停止について(障 [qtnet.co.jp]

        • by Anonymous Coward

          ああちゃんと設定したはずがちゃんと接続したはずがちゃんと製造したはずがだめでしたってパターンですね。

        • by Anonymous Coward

          過電流継電器(OCR)は、普通は高圧側にあるので、電源が落ちたのはUPSの二次側ではなく一次側だと思いますよ。受電用とありますし。

           キュービクル(屋内/屋外)──UPS──低圧分電盤──サーバ

          OCRはキュービクル内の変圧器(トランス)の上に取り付けられています。

          冗長性のないUPSを保守バイパス回路に切り替えて作業中に、OCRの誤動作でトリップしサーバーへの給電が停止、キュービクルにある自動切り替えスイッチ(ATS)で予備受電に切り替わるまでに7秒掛かったと。
          本来はUPSで保護できるけれど、保守バイパス回路だったのでそのままサーバまで止まってしまったということでしょう。

          大型UPSを冗長性なしで運用するデータセンターが、本当に存在するのか疑問ですが。

          • by Anonymous Coward

            https://www.qtpro.jp/cloud/qicdc/ [qtpro.jp]
            ここ見る分にはこの会社の提供するデータセンターはどれも無停電電源装置込で冗長構成してるはずだし、
            サーバーラックまでの電源引き込みも2系統あると取れなくもないイラストなんだけど……
            イラストはテキトー過ぎてアテにならんね。
            受電設備が免震範囲内でUPSや発電機が外?電力は都合三回出入りするの?

            更新中の機器がUPSであってもUPS片肺で動くはずだし、
            2系統のままラックまで引き込んでれば切り替えるまでもなく落ちない。

    • by Anonymous Coward

      常時インバーターなのかCVCFなのかわかりませんけど、単純にバッテリー交換作業をしているときは無停電機能はOFF状態です。

      その際、バッテリーからの給電ではなく商用電源にバイパスされますけど、そのバイパスされた瞬間に過大電流が流れて遮断装置が働いたのではないかと予想。

      通常はサーバーのシャットダウンは必要ないですし、必要ないから稼働したままで作業してたってことです。

      • by Anonymous Coward

        通常はバッテリーがバッファになって安定化していた物を、
        工事の為に直結にしたら突入電流で落ちちゃった、とかか。

  • by Anonymous Coward on 2019年11月28日 23時34分 (#3723540)

    電源切らずにプレス機の掃除するよりも十倍まし

    ここに返信
  • by Anonymous Coward on 2019年11月29日 8時17分 (#3723614)

    データセンタで使用しているUPSは、大抵2系統の受電が可能です。そのため、常時インバータ給電してれば、無瞬断で受電系を本線から予備線に切り替えられます。QICはメンテ作業でUPSをバイパスモードで動かしている時に本線が落ちちゃったんでしょうね。そのうちJDCCの会合で詳細語ってくれるかも。

    ここに返信
    • by Anonymous Coward

      今回はOCRの誤作動ということなので、UPS上位側の電源トラブルだと思いますが、UPSに冗長性(待機冗長でも並列冗長でも)があれば、片系メンテでバイパス回路に落としていたとしても、もう片系が生きてるから普通落ちないですよね。

      シングル構成だったんでしょうか。DCで・・・?

      • by Anonymous Coward

        https://www.qtpro.jp/cloud/qicdc/ [qtpro.jp]
        冗長構成してるはずなのよねぇ………

        冗長構成ってのが嘘だったとか、
        両系統同時にメンテしたとか、
        「常用受電から予備受電に無停電で切り替わる機能」を止めた際にメンテ中の系統側にサーバぶら下げちゃったとか。

        真っ当なDCで起こりうるシナリオが思いつかないんだけど、
        このDCがお粗末なだけか、他のDCも案外お粗末なのか、
        上の予想はハズレで他のDCでも警戒すべきシナリオがあったりするのか。
        他でも警戒すべきかどうかってのは重要なんだけどそこらへんどうなんだ………

typodupeerror

目玉の数さえ十分あれば、どんなバグも深刻ではない -- Eric Raymond

読み込み中...