パスワードを忘れた? アカウント作成
14049181 story
アナウンス

「本番環境でやらかしちゃった人 Advent Calendar 2019」参加者募集中 78

ストーリー by hylom
本当にあった怖い話 部門より

本番環境でやらかしちゃった人 Advent Calendar 2019」なる企画が立ち上げられている。

すでに12月1日から25日まですべてが埋まっており、「本番に影響ない試験してたはずなのに(初歩」というよくありそうな話から、「rsyncの悲劇」「サイトを誤って消してしまった話」などの怖そうな話、「postgresのデータを盗まれた話」「億単位のコストを無駄にした話(書く勇気が湧かなかったら辞退します)」「先輩のアカウントでnpm publishした話(先輩の実写アイコンもpublishされた)」「無限ループしてクラウド破産させてしまった話」などのいったい何が起きたのか気になるような話が予定されている。

  • by Anonymous Coward on 2019年11月19日 7時30分 (#3718431)

    空のテキストファイル1個でバックアップとリカバリテストをやった顧客本番環境で、ディスク障害があったのでバックアップから戻したらディスクの中身が空のテキストファイル1個になってしまった事案を知っている
    あの人は元気だろうか…

    ここに返信
    • by Anonymous Coward

      テスト通りの動作なんでOKですよね?

    • by Anonymous Coward

      空のテキストだから気づけた。ダミーシステムだったら気づかなかったかもしれないw

  • by mishima (737) on 2019年11月19日 14時09分 (#3718614) ホームページ 日記

    WebAPIを開発したけど、最大想定の数倍のアクセスが来て…
    高負荷時になると ORA-600 が繰り返し発生し、そのうち Oracle DBが壊れた、ってことがあったんだよね。

    もちろんデータファイルのバックアップは取ってあった。
    そこからリカバリしようとしたら…アーカイブログの一部がない。
    想定外の高負荷になった結果、もともと想定していたアーカイブログの保持期間より、バックアップ処理時間のほうが伸びてしまったんだな。
    その結果バックアップ完了より先にアーカイブログが消されてしまっていて…

    高い金を払ってサルベージ業者に重要データだけ取り出しを頼みましたよ。

    --
    # mishimaは本田透先生を熱烈に応援しています
    ここに返信
  • by Anonymous Coward on 2019年11月19日 7時05分 (#3718427)

    ってマックで隣の席の巫女服着たSEが言ってた

    ここに返信
  • by Anonymous Coward on 2019年11月19日 9時17分 (#3718458)

    10年くらい前にリモートでヨーロッパの本社から日本支社のコアL3スイッチの設定を吹っ飛ばした事案を思い出した。
    サイレントに夜中にやらかしやがったため、バックアップや夜間処理全止まり。
    当然メールも止まって翌日まで連絡手段なし。(当時は他の手段がなかった)

    #そして戻したのは私、支社にはConfig-Text秘匿だったので設計時の文書だけ渡されてConfig-Text書き直し

    ここに返信
  • by chusa (27150) on 2019年11月19日 9時40分 (#3718465) 日記

    本番稼働後、他システムとIFしてるかと思いきや、自分自身とぐるぐる同じファイルを送受信してたことはあります。
    正常終了するためしばらく気付かれず。
    やらかしと言うには地味ですね。

    ここに返信
  • by Anonymous Coward on 2019年11月19日 9時49分 (#3718471)

    メーデーを見始めてしまった。

    番組自体も究極のやらかし特集だけど、俺自身もやらかしてんな。

    ここに返信
    • by Anonymous Coward

      メーデーがDVD/BDとかで売られないのはきっとそのせい

      # ちょっと前に探したけど売ってなくない?
      # 売ってるなら買うから教えてエロいひと

  • サーバ障害の対応中の話です

    データディスクを暫定的に /tmp 以下に mount して応急作業をしていたところ
    早朝に tmpwatch が走って、古いファイルが全部削除されてしまいました

    バックアップはあったので何とかなりましたが、冷や汗がでました

    ここに返信
  • by Anonymous Coward on 2019年11月19日 15時59分 (#3718702)

    タイトルオンリー

    ここに返信
  • by Anonymous Coward on 2019年11月19日 16時20分 (#3718716)

    同じようなことやりそうになった人にしかわからないと思うけど、AWSのコンソール画面って一番左列にチェックボックスがあるんだけど、チェックボックスにチェックがされてるかどうかがグルグルアイコンで隠れるんだよね

    本番機でなんかの作業しててグルグルアイコン表示(本番機が選択されている)

    それとは関係ない使ってないサーバを見つけたので削除するために選択(本番機と要らないサーバふたつが選択されているが本番機の方はグルグルアイコンで隠れてる)

    削除(ふたつとも削除)

    ここに返信
  • by Anonymous Coward on 2019年11月19日 7時11分 (#3718428)

    ねこねこソフト(みずいろ)とかマイクロソフト(Windows 10 October 2018 Update)とか

    ここに返信
  • by Anonymous Coward on 2019年11月19日 7時54分 (#3718435)

    誤字を追加してタレコみを採用しちまった人なら知っている
    それも一度二度ではなく、それこそ平日は毎日のように…

    # いや、正確には人なのかAIなのか [togetter.com]なのかの確認はしてないのだが…

    ここに返信
  • by Anonymous Coward on 2019年11月19日 9時08分 (#3718454)

    空調故障 → 待機系稼動 → 待機系のステータス変化でメール発報 → 手順どおり室内点検 → 水漏れ箇所を対処(雑巾2枚とかその程度)

    ここまで死亡フラグを回避したのに
    空調機交換の時にサーバー停止 -> 稼動 の時にやや偉い人が止まってた撤去予定サーバまで通電させて以下略

    ここに返信
  • by Anonymous Coward on 2019年11月19日 9時47分 (#3718468)

    守秘が今でも継続しているので書けないのばっか。
    俺がやったんじゃなくってプロパー側のオペミスばっかだけど。

    俺がやって書けるようなのはテスト用設定って言って渡されたのを中身確認しないで展開して動作確認したら
    中身が本番とテストが入り混じっていてめメールも外に出るわで散々だった事ぐらいだな
    その設定ファイルを渡したのは上司でメールで受け渡されていたのに俺に押し付けようと延々とした挙句に
    部長だったのに平社員まで降格されて退職してましたね

    ここに返信
    • by Anonymous Coward

      大学研究室での失敗だったら書きやすいかな。
      研究室のホームページ間違って消しちゃったとか、
      sendmail.cfやnamed.conf間違って、ちょろっと迷惑をかけたり、
      本番と言えば本番だけど、影響が限定的だった、、、よね。

      • by Anonymous Coward

        アカハラ受けてた先輩が自分のアドレスをMLにして内容を全部研究室内に送ってたな
        内々に処理されてたけど笑った

    • by Anonymous Coward

      自分のオペミスとか確認漏れとかを他の人に押し付けるやつ、
      昔は「そんなんおらへんやろ」って思ってた。

      • by Anonymous Coward

        学生時代も問題起こしたのを人のせいにする「良い子ちゃん」っていたでしょ

  • by Anonymous Coward on 2019年11月19日 9時53分 (#3718472)

    .NETの難読化アプリの認証が外れて起動すると警告ダイアログが出ちゃう状態のをリリースしたことあるな

    #難読化はされてた

    ここに返信
  • by Anonymous Coward on 2019年11月19日 10時46分 (#3718504)

    これほんと怖い。
    課金上限とかモニタリングとか(最初から)がちがちになってないと遊びで試すのが怖い。

    ここに返信
  • by Anonymous Coward on 2019年11月19日 10時53分 (#3718507)

    NEC PC-9821 の予備HDD(クローン)を作成した際の話。

    【やらかした事】
    ・作業は AT 互換機で行う関係で RAWコピーになる
     (MBR構造が異なるのでAT互換機では空(末梢された状態)に見える為ファイルベースのコピーは不可能)
    ・たまたま同じ型番のHDD同士だったので、相当慎重にコピー元とコピー先を確認した(つもりだった)
    ・結果、コピーの方向が反対で、空っぽのHDDが2つ出来た

    【処置】
    ・過去にHDD交換修理した際の不良HDDを保管してもらっていたので、それのクローンを作成、修復しシステムを復旧
     データよりもシステムのコピーが重要なケースだったので、事無きを得た

    【反省点】
    ・不安を感じた際、面倒でも一旦 PC-9821 につないで再確認すれば良かった
    ・異なる型番、更に異なる容量のHDDを用意すべきであった
     (そもそもRAWコピーでは同じ型番だと容量不足による失敗の可能性があったのに)
    ・IDE 同士だったので、現在は使用していないマザーとソフトを久しぶりに使ったのも災いした
     (なぜかコピーソフトはIDEのセカンダリを HDD-1、プライマリを HDD-2 と認識していて、これでも迷った)

    ここに返信
    • RAID1(ミラーリング)でHDDが片方壊れた時に、
      ホットスワップで間違えて生きてる方を引っこ抜いたことならあります。

      それ以来、区別しやすいように、出来るだけ別メーカーでミラーリングするようにしてます。

      • by Anonymous Coward

        初歩的な質問なのですが
        昔はRAIDは同メーカーで揃えろって聞いてて
        未だに同メーカー同一型番で組んでるんですが
        (壊れると2台買ってRAID組み直して、生存HDDからコピー)
        違うメーカーでもいけるんでしょうか?

        ちなみにハードRAIDです。
        # 微妙にサイズが違うときは、小さい方に合わせる?

        • by Anonymous Coward on 2019年11月19日 17時22分 (#3718756)

          ここ10年でのメジャーなRAIDコントローラーであれば、
          サイズが違うときは一番小さいところに合わせるので、他メーカー他型番でもOKです。
          代替時も一番小さなものより大容量であれば混ぜてOKです。
          (なお余剰分は未使用領域で見えるパターンと使用不可の2パターンあり)

          #ちなみにエンタープライズストレージは、同一システム内のディスクについては基本的に2メーカー以上にまたがるように出荷しています。

    • by Anonymous Coward

      世の中バックアップと言うけれど、
      バックアップという行為は実は何の役にもたたないどころか、
      という実例ですね。

      • by Anonymous Coward

        バックアップは役立つんだよ。失敗したら致命傷になることを無能にやらせてはならないという実例。

        • by m13zz (48724) on 2019年11月19日 20時04分 (#3718848) 日記

          私 「作業直前にバックアップとっとけよ」 30回目くらい

          DQN 「二週間前にバックアップとったからいいや」 報告なし

          私 「どうせDQNのことだから」 直前にバックアップ

          DQN 「・・・・システムが壊れました(壊しましたではない)」

          私 DQNを現場から叩き出し直前のバックアップから修復

          ここ10年位同じことしてるんだが そろそろ楽隠居させてくれ・・・

      • by Anonymous Coward

        rsync dist src
        みたいな?

    • by Anonymous Coward

      HDDがまだIDEだった頃、コネクタを裏返しで繋いで、バイト先のお客さんのHDD燃やしたな。
      普通は真ん中のピンが1本刺さらないようになってるんだけど、運悪く刺さるタイプのコネクタだった。
      もともとはHDDが読めなくなったという依頼だったが、別のPCに繋いだら読めたのでサルベージしようとしてた時の出来事であった。
      やっぱり壊れててダメでしたと、しれっと誤魔化した。

  • by Anonymous Coward on 2019年11月19日 12時02分 (#3718538)

    社内サーバを初めて構築するとこになり、WindowsServer2000で構築した頃のお話。

    ・サーバマシンを1台、WindowsServer2000+ExchangeServer+SQLServerという構成で購入
    ・ExchangeServerとSQLServerの関係でActiveDirectoryもインストール
    ・システムBackupはWindowsBackupとSQLServerファイルの素コピー、データはネットワークHDD(Linux)にコピーバックアップ
    ・数年、安定稼働していたが、ある日、システムHDDが吹っ飛び、復旧作業を開始
    ・WindowsBackupはシステムをインストールしないと復元できないので、とりあえず、WindowsServer2000を新しいHDDにインストール
    ・WindowsBackupで復元しようとしたらBackupが復元先のシステムではないと怒られ、復元できない。
    ・ここで、初めてADがプライマリDCとバックアップDCの2台が必須であることを知る
    ・バックアップからの復元は諦め、全て再インストール。
    ・データは普通に使えるのと、SQLはちゃんと復元できたのが不幸中の幸いでした。

    サーバを稼働させながらの復元だったので、完全な復旧まで2週間掛かりました...
    以降、TrueImageのようなシステムバックアップソフトを使用するようになりました。
    それと、基本的にExchangeServerとSQLServerは使わない、ADはインストールしない
    ってのが会社のサーバ要件になりました。

    ここに返信
  • by Anonymous Coward on 2019年11月19日 12時38分 (#3718562)

    お墓まで持っていきます…

    ここに返信
typodupeerror

海軍に入るくらいなら海賊になった方がいい -- Steven Paul Jobs

読み込み中...