
「本番環境でやらかしちゃった人 Advent Calendar 2019」参加者募集中 78
ストーリー by hylom
本当にあった怖い話 部門より
本当にあった怖い話 部門より
「本番環境でやらかしちゃった人 Advent Calendar 2019」なる企画が立ち上げられている。
すでに12月1日から25日まですべてが埋まっており、「本番に影響ない試験してたはずなのに(初歩」というよくありそうな話から、「rsyncの悲劇」「サイトを誤って消してしまった話」などの怖そうな話、「postgresのデータを盗まれた話」「億単位のコストを無駄にした話(書く勇気が湧かなかったら辞退します)」「先輩のアカウントでnpm publishした話(先輩の実写アイコンもpublishされた)」「無限ループしてクラウド破産させてしまった話」などのいったい何が起きたのか気になるような話が予定されている。
リカバリ"テスト" (スコア:5, 興味深い)
空のテキストファイル1個でバックアップとリカバリテストをやった顧客本番環境で、ディスク障害があったのでバックアップから戻したらディスクの中身が空のテキストファイル1個になってしまった事案を知っている
あの人は元気だろうか…
Re: (スコア:0)
テスト通りの動作なんでOKですよね?
Re: (スコア:0)
空のテキストだから気づけた。ダミーシステムだったら気づかなかったかもしれないw
Oracleデータベース全損 (スコア:4, 興味深い)
WebAPIを開発したけど、最大想定の数倍のアクセスが来て…
高負荷時になると ORA-600 が繰り返し発生し、そのうち Oracle DBが壊れた、ってことがあったんだよね。
もちろんデータファイルのバックアップは取ってあった。
そこからリカバリしようとしたら…アーカイブログの一部がない。
想定外の高負荷になった結果、もともと想定していたアーカイブログの保持期間より、バックアップ処理時間のほうが伸びてしまったんだな。
その結果バックアップ完了より先にアーカイブログが消されてしまっていて…
高い金を払ってサルベージ業者に重要データだけ取り出しを頼みましたよ。
# mishimaは本田透先生を熱烈に応援しています
脆弱性のある本番サーバーを勝手に止めました (スコア:1)
ってマックで隣の席の巫女服着たSEが言ってた
Re:脆弱性のある本番サーバーを勝手に止めました (スコア:2)
これ [security.srad.jp]ですね。
ただ、タレコミの方は「そんなつもりはなかったのに」やらかしちゃったのに対して、巫女SEの方は「意図的に」やらかしちゃったんでちょっと違うかな。
Re: (スコア:0)
この人17歳だったのか… いやまあネタの年齢かもしれんが
今はどうしてるんだろ。ツイッターのアカウントは生きてるけど同じ人なのかな
Re: (スコア:0)
人間が一番の脆弱性なので
ネットワーク系もつらいよ (スコア:1)
10年くらい前にリモートでヨーロッパの本社から日本支社のコアL3スイッチの設定を吹っ飛ばした事案を思い出した。
サイレントに夜中にやらかしやがったため、バックアップや夜間処理全止まり。
当然メールも止まって翌日まで連絡手段なし。(当時は他の手段がなかった)
#そして戻したのは私、支社にはConfig-Text秘匿だったので設計時の文書だけ渡されてConfig-Text書き直し
Re: (スコア:0)
海を越えてはやるなぁ。
俺は5駅ぐらい先のお客さんのルーター設定飛ばした。
ネットワーク越しにconfig流したら改行コードが途中に挟まっててそこで止まったよ。
速攻客先に電話して、上司に報告。現地に向かってコンソールつないで直した。
優しいお客さんで良かった。
Re: (スコア:0)
僕もこれくらいやってみたいです。
OCNやKDDIで通信障害
https://it.srad.jp/story/17/08/25/2140223/ [it.srad.jp]
8月25日に全国で発生したネットワーク不具合、原因はGoogleの誤設定
https://it.srad.jp/story/17/08/28/0858259/ [it.srad.jp]
Re:ネットワーク系もつらいよ (スコア:1)
ああ、「マニュアル通り」新規作成からデータ全消去までやったんですね。
自分とのIF (スコア:1)
本番稼働後、他システムとIFしてるかと思いきや、自分自身とぐるぐる同じファイルを送受信してたことはあります。
正常終了するためしばらく気付かれず。
やらかしと言うには地味ですね。
明日飛行機に乗るのに (スコア:1)
メーデーを見始めてしまった。
番組自体も究極のやらかし特集だけど、俺自身もやらかしてんな。
Re: (スコア:0)
メーデーがDVD/BDとかで売られないのはきっとそのせい
# ちょっと前に探したけど売ってなくない?
# 売ってるなら買うから教えてエロいひと
/tmp以下にディスクをmount (スコア:1)
サーバ障害の対応中の話です
データディスクを暫定的に /tmp 以下に mount して応急作業をしていたところ
早朝に tmpwatch が走って、古いファイルが全部削除されてしまいました
バックアップはあったので何とかなりましたが、冷や汗がでました
「Abend Calendar」と空見 (スコア:1)
タイトルオンリー
AWSで本番機を消してしまった (スコア:1)
同じようなことやりそうになった人にしかわからないと思うけど、AWSのコンソール画面って一番左列にチェックボックスがあるんだけど、チェックボックスにチェックがされてるかどうかがグルグルアイコンで隠れるんだよね
本番機でなんかの作業しててグルグルアイコン表示(本番機が選択されている)
↓
それとは関係ない使ってないサーバを見つけたので削除するために選択(本番機と要らないサーバふたつが選択されているが本番機の方はグルグルアイコンで隠れてる)
↓
削除(ふたつとも削除)
バグでユーザーのファイルを消しました (スコア:0)
ねこねこソフト(みずいろ)とかマイクロソフト(Windows 10 October 2018 Update)とか
Re:バグでユーザーのファイルを消しました (スコア:1)
https://it.srad.jp/story/13/09/05/0559221/ [it.srad.jp]
セガもいるぞ
Re: (スコア:0)
WinGroove...バグって怖いですね(棒読
Re: (スコア:0)
AppleもMac OS Xのアップデートで一度やらかしてますね
Re: (スコア:0)
rm -rf /$hoge
本番の環境で (スコア:0)
誤字を追加してタレコみを採用しちまった人なら知っている
それも一度二度ではなく、それこそ平日は毎日のように…
# いや、正確には人なのかAIなのか猫 [togetter.com]なのかの確認はしてないのだが…
空調故障による水漏れからの (スコア:0)
空調故障 → 待機系稼動 → 待機系のステータス変化でメール発報 → 手順どおり室内点検 → 水漏れ箇所を対処(雑巾2枚とかその程度)
ここまで死亡フラグを回避したのに
空調機交換の時にサーバー停止 -> 稼動 の時にやや偉い人が止まってた撤去予定サーバまで通電させて以下略
いくつかあるけど (スコア:0)
守秘が今でも継続しているので書けないのばっか。
俺がやったんじゃなくってプロパー側のオペミスばっかだけど。
俺がやって書けるようなのはテスト用設定って言って渡されたのを中身確認しないで展開して動作確認したら
中身が本番とテストが入り混じっていてめメールも外に出るわで散々だった事ぐらいだな
その設定ファイルを渡したのは上司でメールで受け渡されていたのに俺に押し付けようと延々とした挙句に
部長だったのに平社員まで降格されて退職してましたね
Re: (スコア:0)
大学研究室での失敗だったら書きやすいかな。
研究室のホームページ間違って消しちゃったとか、
sendmail.cfやnamed.conf間違って、ちょろっと迷惑をかけたり、
本番と言えば本番だけど、影響が限定的だった、、、よね。
Re: (スコア:0)
アカハラ受けてた先輩が自分のアドレスをMLにして内容を全部研究室内に送ってたな
内々に処理されてたけど笑った
Re: (スコア:0)
自分のオペミスとか確認漏れとかを他の人に押し付けるやつ、
昔は「そんなんおらへんやろ」って思ってた。
Re: (スコア:0)
学生時代も問題起こしたのを人のせいにする「良い子ちゃん」っていたでしょ
難読化アプリの認証が外れてた (スコア:0)
.NETの難読化アプリの認証が外れて起動すると警告ダイアログが出ちゃう状態のをリリースしたことあるな
#難読化はされてた
無限ループしてクラウド破産 (スコア:0)
これほんと怖い。
課金上限とかモニタリングとか(最初から)がちがちになってないと遊びで試すのが怖い。
Re: (スコア:0)
パケ死
HDD クローン作成の方向が反対 (スコア:0)
NEC PC-9821 の予備HDD(クローン)を作成した際の話。
【やらかした事】
・作業は AT 互換機で行う関係で RAWコピーになる
(MBR構造が異なるのでAT互換機では空(末梢された状態)に見える為ファイルベースのコピーは不可能)
・たまたま同じ型番のHDD同士だったので、相当慎重にコピー元とコピー先を確認した(つもりだった)
・結果、コピーの方向が反対で、空っぽのHDDが2つ出来た
【処置】
・過去にHDD交換修理した際の不良HDDを保管してもらっていたので、それのクローンを作成、修復しシステムを復旧
データよりもシステムのコピーが重要なケースだったので、事無きを得た
【反省点】
・不安を感じた際、面倒でも一旦 PC-9821 につないで再確認すれば良かった
・異なる型番、更に異なる容量のHDDを用意すべきであった
(そもそもRAWコピーでは同じ型番だと容量不足による失敗の可能性があったのに)
・IDE 同士だったので、現在は使用していないマザーとソフトを久しぶりに使ったのも災いした
(なぜかコピーソフトはIDEのセカンダリを HDD-1、プライマリを HDD-2 と認識していて、これでも迷った)
Re:HDD クローン作成の方向が反対 (スコア:1)
RAID1(ミラーリング)でHDDが片方壊れた時に、
ホットスワップで間違えて生きてる方を引っこ抜いたことならあります。
それ以来、区別しやすいように、出来るだけ別メーカーでミラーリングするようにしてます。
Re: (スコア:0)
初歩的な質問なのですが
昔はRAIDは同メーカーで揃えろって聞いてて
未だに同メーカー同一型番で組んでるんですが
(壊れると2台買ってRAID組み直して、生存HDDからコピー)
違うメーカーでもいけるんでしょうか?
ちなみにハードRAIDです。
# 微妙にサイズが違うときは、小さい方に合わせる?
Re:HDD クローン作成の方向が反対 (スコア:3, 参考になる)
ここ10年でのメジャーなRAIDコントローラーであれば、
サイズが違うときは一番小さいところに合わせるので、他メーカー他型番でもOKです。
代替時も一番小さなものより大容量であれば混ぜてOKです。
(なお余剰分は未使用領域で見えるパターンと使用不可の2パターンあり)
#ちなみにエンタープライズストレージは、同一システム内のディスクについては基本的に2メーカー以上にまたがるように出荷しています。
Re:HDD クローン作成の方向が反対 (スコア:1)
「ロットごとに」というケースも存在しましてですね(アレはひどい)。
今どきはカスタムファームまで作らなくても上限を設定しなおせます(クリッピング)。
Re: (スコア:0)
世の中バックアップと言うけれど、
バックアップという行為は実は何の役にもたたないどころか、
という実例ですね。
Re: (スコア:0)
バックアップは役立つんだよ。失敗したら致命傷になることを無能にやらせてはならないという実例。
Re:HDD クローン作成の方向が反対 (スコア:4, 参考になる)
私 「作業直前にバックアップとっとけよ」 30回目くらい
DQN 「二週間前にバックアップとったからいいや」 報告なし
私 「どうせDQNのことだから」 直前にバックアップ
DQN 「・・・・システムが壊れました(壊しましたではない)」
私 DQNを現場から叩き出し直前のバックアップから修復
ここ10年位同じことしてるんだが そろそろ楽隠居させてくれ・・・
Re:HDD クローン作成の方向が反対 (スコア:1)
をを、同志が
これで二回常用系を壊したDQNには
二度とスナップショットの使用は不可、クローンでバックアップしろ
とシメたんですが
現場に出してはいけない人間が一定数存在するのは致し方ないことなんですかね
Re: (スコア:0)
rsync dist src
みたいな?
Re: (スコア:0)
HDDがまだIDEだった頃、コネクタを裏返しで繋いで、バイト先のお客さんのHDD燃やしたな。
普通は真ん中のピンが1本刺さらないようになってるんだけど、運悪く刺さるタイプのコネクタだった。
もともとはHDDが読めなくなったという依頼だったが、別のPCに繋いだら読めたのでサルベージしようとしてた時の出来事であった。
やっぱり壊れててダメでしたと、しれっと誤魔化した。
WindowsServer2000のActiveDirectoryに泣く (スコア:0)
社内サーバを初めて構築するとこになり、WindowsServer2000で構築した頃のお話。
・サーバマシンを1台、WindowsServer2000+ExchangeServer+SQLServerという構成で購入
・ExchangeServerとSQLServerの関係でActiveDirectoryもインストール
・システムBackupはWindowsBackupとSQLServerファイルの素コピー、データはネットワークHDD(Linux)にコピーバックアップ
・数年、安定稼働していたが、ある日、システムHDDが吹っ飛び、復旧作業を開始
・WindowsBackupはシステムをインストールしないと復元できないので、とりあえず、WindowsServer2000を新しいHDDにインストール
・WindowsBackupで復元しようとしたらBackupが復元先のシステムではないと怒られ、復元できない。
・ここで、初めてADがプライマリDCとバックアップDCの2台が必須であることを知る
・バックアップからの復元は諦め、全て再インストール。
・データは普通に使えるのと、SQLはちゃんと復元できたのが不幸中の幸いでした。
サーバを稼働させながらの復元だったので、完全な復旧まで2週間掛かりました...
以降、TrueImageのようなシステムバックアップソフトを使用するようになりました。
それと、基本的にExchangeServerとSQLServerは使わない、ADはインストールしない
ってのが会社のサーバ要件になりました。
無理 (スコア:0)
お墓まで持っていきます…
Re:無理 (スコア:1)
Re: (スコア:0)
hackerに恥ずかしい失敗事例の記録を持っていかれるのか、可哀相に
Re:25日には何が (スコア:1)
qiitaの中の人が本番環境でやらかすのでは?
Re:サーバー移転 (スコア:1)
この情報だけだと何とも言えませんね。
1.ステータスコード 404 Not Found の場合
・Aレコード浸透前に移行元Webサーバーのデータを削除した
・Aレコードは更新していたが、移行先Webサーバーがまだできていない
2.Host Not Found の場合
・NSレコードが浸透する前に、移行元DNSサーバーを停止した
・NSレコードは更新していたが、移行先DNSサーバーがまだできていない
> からの
> 弊社「ここ見たら嘘だって書いてあるけど?」
> https://internet.watch.impress.co.jp/docs/event/iw2011/494798.html [impress.co.jp]
> 御社「お詫びします」
あほくさ
たぶん、説明が面倒になってとりあえず謝っちゃえになってるんじゃないかと。
ふつう移行先ができてない状態でDNSの移行を開始するとは思えないから、移行元を早々に停止した奴が悪い。
…業者自身かもしれないけど