パスワードを忘れた? アカウント作成
15235115 story
クラウド

AWS、わざとクラウドに障害を発生させて耐障害性を検証できるサービスを提供開始 29

ストーリー by nagazou
いわゆるストレステスト 部門より
Amazon Web Services(AWS)は15日、新サービス「AWS Fault Injection Simulator」の提供を開始したと発表した。この新サービスは、クラウドに対して意図的にサーバの終了や遅延、データベース障害といった障害を引き起こすことができる。これにより、システムの応答を観察することなどにより、アプリケーションの耐障害性を検証できる。こうした意図的に障害を発生させる方法は「Chaos Enginieering」と呼ばれ、Netflixが2012年に採用したことで広く使われるようになったという。AWS Fault Injection Simulatorは、東京リージョンを含む世界各地の商用AWSリージョンで利用可能となった。ただし開設されたばかりの大阪リージョンと中国のリージョンは対応していないとしている(AWSブログPublickeyCodeZine)。
この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
  • by Anonymous Coward on 2021年03月20日 7時28分 (#3997795)

    「わ、わざと障害を発生させて対障害性を検証していただけなんだから!」

    • Re:みずほ銀行 (スコア:2, おもしろおかしい)

      by Anonymous Coward on 2021年03月20日 7時52分 (#3997801)

      障害に対する性能はないことが無事わかりましたね。
      めでたしめでたし

      親コメント
    • by Anonymous Coward

      用法・用量を守って、経営を損なわない障害を心掛けましょう。

      • by Anonymous Coward on 2021年03月20日 8時56分 (#3997828)

        経営陣に対する精神的負荷テストもできて良かったんじゃない?

        親コメント
        • by Anonymous Coward

          なお、本当に精神的負荷を受けたのは利用者と休日返上で対応にあたった行員の模様

  • by Anonymous Coward on 2021年03月20日 14時22分 (#3997976)

    ベテランが寝てるとか旅行に出かけてる、とかで稼働できない場合に
    限られたリソースで応急処置をとるにはどうすんべ、とかも考えるといいんだろうね。

    本当に最悪の場合は、旅行中のベテランに連絡をとる必要もあるんだろうけど
    その時にベテランはどんな装備を持ってれば対応できるだろうか、
    iPad持ってれば大丈夫、いやせめてSurfacePro持っておきたい、とか。

    みんなそういう事やってる?
    うちは大してクリティカルな案件ないし、そのあたり真面目に考えてないんよなあ。

    • by Anonymous Coward

      ベテランがいない場合にもトラブルに対処できるよう練習するためのサービスなのでは?
      というか自分がそのベテランなら、このサービスでトラブルを仕掛けておいて隠れて見守るが

    • by Anonymous Coward

      クリティカルなシステムであれば、そのベテランが単一障害点になっている状態がまずいと思う。
      そもそも人材が足りず余裕が無いからそれが起こるのだと思うけど、それはそれとして、
      理屈で言えばそのレベルで問題の対処を提案できる人間が複数(できれば多数)存在するべきという話になるかと。
      誰か特定個人が知識を抱え込むことが無いようにレビューを運用し、システム作業も担当者を固定しないように、チームやプロジェクトを設計する。
      そりゃまあ、障害なんて想定外の事態だから障害に発展するのであって、その障害が並の技能じゃ解決できないようなものなら
      スーパーマンに泣きつくしかないかもしれないけど。

    • by Anonymous Coward

      その程度の予測可能な事態で休暇中のやつを呼び出さないといけないって残ってる連中は無駄飯食らいか。
      そんなことしないといけない時点で組織として終わってる。

    • by Anonymous Coward

      トラックナンバーを考えたら、その状態が不味い。
      旅行先で事故に有ったら、引き継ぎ出来ずに終わりだよね。

  • by Ryo.F (3896) on 2021年03月21日 4時34分 (#3998186) 日記

    NetflixがAWS用に開発したChaos Monkeyを、AWS自身が「車輪の再発明」したものかしら?

    • by Anonymous Coward

      マネージドサービスというものでしょう。
      インフラ側で障害を再現してくれるならよりリアルだし手軽でもある。

      • by Ryo.F (3896) on 2021年03月21日 17時11分 (#3998397) 日記

        マネージドサービスというものでしょう。

        そんなのは記事を見れば判るさ。
        で、それはAWSが実装したものなのか、Chaos Monkeyを利用したものなのか?

        インフラ側で障害を再現してくれるならよりリアルだし手軽でもある。

        クラウド利用者がChaos Monkeyなどを利用して発生させることができるものより、クラウド提供者が発生させることができるものには、当然差がある。
        例えば、そのユーザシステムが載っている物理的な機器に障害を起こす、みたいなことは、クラウド提供者でなければ発生させることはできない(物理占有機サービスを除く)。
        けど、このマネージドサービスは、そう言うものまでサポートしてるのかな?

        親コメント
    • by Anonymous Coward

      成果物の一部は https://github.com/netflix/chaosmonkey [github.com] にあるし、再発明というよりは、積極的に再実装したものかと。

      • by Anonymous Coward

        ライセンス大丈夫なのかな?

  • by Anonymous Coward on 2021年03月20日 18時50分 (#3998056)

    掃除のおばちゃん機能をONにすると、派遣会社からおばちゃんがやってきてコンセントを抜いてくれます

    • by Anonymous Coward

      このネタよくみるとけど、いつぐらいまでの話なんだろ。
      データセンターの類ってマシンルームと呼ぶようなところには掃除のおばちゃんなんか入れないんだよね。
      大昔にデータセンターでなくオフィスにパソコンを置いてたサーバにしてた時分の話なんだろうけど、今時ネタにするには時代錯誤もいいとこじゃないか。

      • by Anonymous Coward on 2021年03月21日 2時11分 (#3998164)

        オフィスにパソコンを置いてサーバにしてるところ、まだまだありますよ。
        派遣のおばちゃんがいるような大企業は知りませんけど、私が出入りしてる中小企業では見掛けます。
        さすがにコンセント抜くのはないですが、掃除機や湯沸かし器と同じコンセントに繋いでてブレーカー落ちたことはありました。

        親コメント
        • by Anonymous Coward

          大手企業でも「あるある」ですよ。

          大手企業だと顧客からの要請で立ち上げなればならない社内サービスでも、
          サーバとして申請すると監査やら情シスやら経営やらの承認が必要になってしまうので、
          「ちょっとお高めのPCです」って申請してこっそりやる、というのが常態化したりします。

          しかもそれがないと業務が停止するようなものがあったり・・・・

      • by Anonymous Coward

        まともなセキュリティで運用してる会社ならサーバルームは掃除のおばちゃんどころか
        かなり限られた人間しか入れないよなあ、とか。
        エンジニアでも直接インフラ担当してる人間以外はふつう入れない気がする。

        • by Anonymous Coward

          CO2やハロゲンの消火設備があって人間が立ち入るのは危険まである

      • by Anonymous Coward

        メインフレーム機が毎日ほぼ一定時刻に応答を停止するから調べてみたら毎日カートリッジ引っこ抜いて雑巾で拭いて戻していた、とあかいうメインフレームの耐障害性を称える逸話が元ネタじゃなかったっけ。つまりメインフレームの時代。

  • by Anonymous Coward on 2021年03月21日 8時33分 (#3998206)

    昨今のシステム複雑化を踏まえ、サーバの火災訓練(とでも言っておく)を実施いたします。
    実際に一部サーバが停止し、予備装置が作動します。
    閑散時間帯を指定し、万全の対策にて臨みますが、お客様各位におきましては、極めて重要な取引は遅延いただけますと幸いです。

    # で、テスト顧客(無人)を用意

    • by Anonymous Coward

      いや、無人じゃだめだ。その調子で、キャッシュカードが取り込まれちまっただろ。
      行員に指示して、ATMでテスト取引させるんだ。

  • by Anonymous Coward on 2021年03月21日 19時09分 (#3998451)

    まさか、これが原因で「スパルタクス」が誕生しようとは、誰も予想していなかった。

typodupeerror

普通のやつらの下を行け -- バッドノウハウ専門家

読み込み中...