パスワードを忘れた? アカウント作成
792512 story
バグ

/.Jに聞け:今までに経験した、馬鹿らしい障害原因は? 184

ストーリー by headless
ほぼ編集が終わっているストーリーをリセット。今日は2回目。 部門より
あるAnonymous Coward 曰く、

LARTHの日記で知ったのだが、「アクセスカウンターの表示件数を越えるアクセスがあったため」に岡山県総合防災情報システムが閲覧不能になったそうだ。

アクセスカウンターは5桁ということで、10万を超えるアクセスがあった場合ページが表示できなくなっていたそうだ。非常に原因はばかばかしいものではあるが、だからこそ意外に見落とされやすいバグかもしれない。/.J読者にはシステム開発に携わる人が多いとは思うが、今まで経験した障害の中で、「原因がばかばかしかった障害」はあるだろうか。公開できる範囲でお教え頂きたい。

この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
  • by nonta2005 (31048) on 2011年09月17日 16時14分 (#2021070)
    ハード筐体が異常発熱した際、「冷えピタ」で凌いだことがあります。
  • アイが足りなかった (スコア:5, おもしろおかしい)

    by reininn (35924) on 2011年09月17日 16時20分 (#2021071)
    特定のブラウザーだけ文字が化け化けだった。
    cgi のプログラムを良く見ると・・・・・・
    Content-type: text/html;charset=shft_JIS
    ああ、アイが足りなかったんだ!
  • by alternative (23238) on 2011年09月17日 17時22分 (#2021113)

    ↑↑Enter
    ↑↑↑Enter
    ↑↑↑↑↑↑ ↑Enter
    あれ、コンソールがフリーズした
    打ったコマンドは

    ifdown eth0

    えー? なんでコマンド履歴にこんなものが
    ということはあった。

    リモートkvmがあったので、被害は数分で済んだけど

  • 無自覚テロ (スコア:4, おもしろおかしい)

    by Anonymous Coward on 2011年09月17日 18時27分 (#2021162)

    「本番のJSPを差し替えたら、TOP画面が出なくなったんだけど、バグじゃないの?」
    「そういうの、気軽にやんないでもらえますか?」

  • by nullme (33867) on 2011年09月17日 23時57分 (#2021276) 日記
    ある種のデータを蓄積する,自治体用システムがあった。 自治体担当者曰く,過去の実績をみても年間数百件ですよ,と。 それでもある程度の余裕を持たせ,99,999件まで管理できるようにしておいた(客:3桁で十分ですよ→ウチ:5桁で管理)。

    震災後,本来の目的とは異なるがデータを管理できるモノとして大いに活用され,どんどんデータを登録していたら管理可能上限を超えて,システムが使用不能に。

    限度を越えそうなときに警告を発するなどの仕組みを組み込まなかったのは手落ちですが,想定の100倍以上のデータが発生することもある,という教訓でした。

    # 改修して動いているし,改修費は出してもらえる。双方に落ち度はなかったと互いに理解しているので。

  • 物理的原因 (スコア:3, 参考になる)

    by Technobose (6861) on 2011年09月17日 15時14分 (#2021053) 日記
     以前、総合病院のシステム構築のプロジェクト管理を担当したときに、サーバールームのエアコンの室外機を壊されて、サーバールームの室温が60度くらいまで上がってシステム・ダウンという経験があります。  それも建物を管理している担当者が、きちんと工事業者に指示を出したり現場確認をしていなかったためでした。  ビルの外壁補修工事でモルタルを吹いたらしいんだけど、エアコンの室外機の近辺で養生をしないで工事をしたらしく、室外機が停止、そのまま換気できずということでした。  公的組織の性として情報システムはお荷物扱いで、ただ一人の担当者だった私は文房具ももらえなかったりとか、いろいろ冷遇されてましたが、ここまでひどいとはと唖然としましたよ(専任担当者一人でオーダリングシステム導入って、あまり無いはず)。  でも、某国産メーカーのUNIX、PCサーバが60度近い室温で動かない状況なのに、財務会計システム用に入れたIBM AS/400は何事もないかのように動いているのにはびっくりしました。それ以来、IBMが好きになりました。
    • by nmaeda (5111) on 2011年09月17日 17時08分 (#2021103)

      AS/400は経理や財務などでよく使われる関係で、サーバ室でなく、一般オフィスに設置されることも多いし、(保守契約には入っていても)普段は専門家によって管理されないことも多いから、ちょっとエアコンが止まったくらいで故障していては売り物にならないのでしょう。(中小企業にオフコン代わりに導入される事例も多かった)

      親コメント
    • by miishika (12648) on 2011年09月17日 17時10分 (#2021104)
      UNIXサーバーも機種によっては、本体が熱で壊れる前に、サービスプロセッサが早い段階で温度上昇を検知してシャットダウンさせたりするので、一概に「高温でも動き続ける=高品質」とは言えないのでは。
      親コメント
  • by Anonymous Coward on 2011年09月17日 18時21分 (#2021157)

    なぜかその状態で数年間バレずに動いてたり

  • 消費税率がフレキシブルに設定できるシステムだったんですが、一カ所だけ消費税率がハードコーティングされていました。
    見つける前に消費税率が変わらなくて良かったと思います。

    --
    -- 桜の花が散る頃に 貴方にまた巡り会うことを願わん
  • by j_kariu (33108) on 2011年09月17日 15時45分 (#2021063) 日記

    ユーザが勝手に追加したHUBに、更に勝手にネットワークケーブルを追加し・・・結果、ネットワークがループを起こして以下略。
    #もう時効だと思うのでID

    --
    ぐったりんぐ
    • by nmaeda (5111) on 2011年09月17日 16時58分 (#2021098)

      小さなハブ一台、PC一台を追加するだけで呼びつけられるのもバカバカしい気がするし、現場もそう思うので勝手に追加されちゃう。

      そういうとき、往々にして投げ売りされてる安物のハブを使われて、いつの間にか故障してしまう。PCやプリンタなら目に付くからすぐに状況を把握できるけど、ハブは机の裏にあったりして、勝手に追加されていることに気が付かなかったりする。

      親コメント
    • by Aluminum-Carbide (41494) on 2011年09月17日 17時32分 (#2021120) 日記

      介護老人ホームに設置した無線LANがよく壊れるので調査に行ったら

      異常な超高出力(無線LAN用のスペアナが振り切りました)で電波を発してる
      謎の無線LANAPのせいで客先に設置した無線LANAPが多量に破損していた

      MACアドレスはSamsung社のベンダーIDだったけど発信源は未だに不明
      介護老人ホームにあんな物設置したら医療機器が誤作動しそうだけど・・・

      施設の誰もその機器について知らないのがもう最悪。

      #ちなみに該当施設は山の中なので外来波で無い事は確実・・・

      --
      水を飲むと屁(CH4)をこきます
      親コメント
    • by fall-ken (14537) on 2011年09月17日 21時42分 (#2021242)

      昔、MORPGとP2Pを同時にしていた時代、
      P2Pの接続をすると、1時間に1回位の間隔でMORPGが接続切断される。
      仕方が無いので、MORPGやるときにはP2Pしないことにした。
      転居してルータ変えたら何でも無く動いたので、おそらくルータの処理能力不足。
      (だが、古いルータはまだ実家で使用中。
      ハブは買ってきてつなぐくらいはできるようだけど、
      さすがにルータの設定は難しいらしい。
      簡単設定とかできないモデルだったからなあ。)

      親コメント
  • by Anonymous Coward on 2011年09月17日 16時06分 (#2021065)

    当時は、まだ珍しかったフルタワー型のサーバ機が、踏み台にされ、
    乗った人が、バランスを崩した際に倒されて、システムが止まった
    ことがあります。 (似た話しは他所でも聞きました)

    検査と修理から戻ったサーバ機には、土足厳禁の貼り紙が。 < それは違う。

    • 某ごつい兄ちゃん達が使う装置を作っているんですが。

      ある日「普通に使ってたら壊れた。直せ」と言って帰って来た装置を見ると、そこにはどう見ても踏みつけたとしか思えないへこみ後が。
      どう見てもこれ上に乗ったでしょうと言ったら「鋳物で作られた頑丈そうな箱だったので踏み台に使った」という答えが返ってきました。丁重に「鋳物は鋳物でも精密アルミ鋳物なので肉厚は2ミリ程度しかありません。乗ったら壊れます」と説明し、スラドの変な物アイコンに×印をしたような警告シールが添付されるようになりましたとさ。

      また別の日「普通に使ってたら壊れた。直せ」と言って修理で帰って来た装置をみました。今度はカメラの保護ガラスは割れています。しかし、なんですかその焦げ跡。なにしましたかと聞いたら「霜が付いて見えにくかったので手元にあったバーナーで霜取りしようとした。分厚いガラスなので大丈夫だと思った」という答えが返ってきました。丁重に「厚かろうと薄かろうとバーナーであぶったりしたら割れます」と説明し、マッチ一本火事のもとみたいなアイコンと共に「火あぶり厳禁」という警告シールが添付されるようになりましたとさ。

      またまたさら別の日「普通に使ってたら(ry

      この手の話はいくらでもあります。

      結局ユーザは予想外の行動をする物だという話しなんでしょうけど「電子レンジに猫を入れるな等と書くのはばかげてる」みたいな話しもあり難しい所です。

      親コメント
  • フリーアクセスフロアパネルを1枚開けた時、被覆を剥がして手で捻って継ぎ足したUTPケーブルを発見した時は絶句した。

  • by wolf03 (39616) on 2011年09月17日 19時24分 (#2021188) 日記
    タワー型筐体で下の方にリセットボタンがあったんですよ。
    それを床置きにしてた時に、突如リセットが・・・・・・・。

    一時間ぐらい調べても分からなかったが、ふと見たら椅子のキャスターがちょうど良い高さに・・・。
    角度によっては見事に押される事が判明し、リセットボタンにカバーを付けました。
    トータル半日無駄にした上に脱力でその日は仕事にならずでした。
  • by fall-ken (14537) on 2011年09月17日 21時36分 (#2021240)

    BTOで買ったメモリ2GB(ユーザの触れるスロット1、触れないスロット1)のノートPC。
    キーボードに水をかけてしまったので修理に出したら、
    「弊社の搭載品ではありませんので保障しかねます」ってメモリが1枚外された状態で帰ってきた。
    「BTOで買ったからそれはないんだけどなあ……仕方ない、自分で挿すか」と思い、裏ブタをあけるとメモリ挿さってる???
    で、本体側のユーザの触れられないスロットはメモリ挿さってない!!!
    さすがにどうしようもないので、クレーム入れました。
    さすがに2回目はタダでした。

  • by wwe (16718) on 2011年09月18日 11時17分 (#2021364)

    CiscoルーターのIOS VerUP時にActiveSUPが故障してコンフィグの入ってないSUPに交換して再起動。

    なんか、上がってきたらプロンプトに『Router>』とかでてるなぁ…とか…。

    そういえば、CiscoルーターってActive側SUPからstandby側SUPにコンフィグシンク走らせてるよねぇ…

    交換してコンフィグ入ってないSUPからコンフィグ入ってないことがStandby側SUPにシンクされた?

    やっぱり立ち上がっても通信復旧してないので、コンソールサーバー経由でTelnetログイン許可

    バックアップコンフィグからひたすらコンフィグ投入して復旧

    教訓
    SUP交換する時はメモリーカードにコンフィグをセーブしておきましょう。

  • by Anonymous Coward on 2011年09月18日 15時34分 (#2021440)

    マシンを納品に行き、指定された部屋へ・・・
    信号線の類はちゃんと工事されて完璧かと思われたのですが、ただひとつ見落としているものがありました。
    その部屋にはコンセントがひとつもなかったのです。
    客先もコンセントってフツーに部屋にあるもんだろうと思い込んでいたようです。

  • by saitoh (10803) on 2011年09月19日 15時16分 (#2021777)
    当時のlinux(のとあるディストリビューション)は家庭のアクセスサーバを想定(つまり、SLIPだかPPPで外部にモデム接続し、家庭内LANのデフォルトゲートウェイとして働く)していた。で、動的ルーティングでRIPv1がまだまだ現役だった時代。 とある馬鹿者が大学のLANにつながったPCにlinuxをインストールして、RIPのデフォルトルートを出す(デフォルトの)設定にして,部屋の鍵を閉めて帰宅したのが金曜の夕方。

    LANの経路制御が混乱した原因は突き止めたモノの施錠のためシャットダウンもなにもできず。幸い10Base5で廊下にトランシーバが露出してたのでそのマシンのAUIケーブルをぬいた。

  • by saitoh (10803) on 2011年09月19日 15時31分 (#2021780)
    とある会社A社で、間違ってUDP53(関係の何か)を「通さない、ログを残す」設定にした。 たまたま B大学の 某学科の裏口(フレッツISDNのポート)を逆引きしたときにこのフィルタが作動した。
    1 ログを残す&&IPアドレスを逆引きしようとしてDNS問合わせを出す
    2 B大学からDNS回答が帰ってくる
    3 DNS回答がフィルタに引っかかる
    4 最初に戻る

    結果として、ログを入れてたHDDが溢れて障害認知。

    ・ A社の担当者は、「B大学からのパケットがフィルタに引っかかったログでHDDが溢れた。これはB大学からの(今で言うDOS)攻撃である」と判断
    ・B大学某学科に猛抗議
    ・某学科の担当者あわてふためく
    ・某学科の担当者困惑。A社が提示したログには某学科のIPアドレスとプライベートIPアドレスだけが記されていた。実は当該のマシンはNATの内側
    ・某学科のスタッフ、最終的にはA社の設定の問題と看破、A社に連絡
    ・A社から謝罪無し

    某学科のスタッフってのが私。

  • by Anonymous Coward on 2011年09月17日 16時07分 (#2021066)

    たいした障害じゃないけど。

    掃除かなんかのために抜いたコピー機の電源プラグをさすコンセントを探していたときに、
    ちょうど空いてるコンセントがあったのでさしておいた。
    それがUPSのコンセントだったため、建物の定期点検の停電時にUPSが作動して、
    コピー機に電源を食いつぶされたことがある。

    大学のあまり大事じゃない部屋での出来事だからたいした被害はなかったけど、
    UPSには大事な機械以外つないじゃいけないと学んだ。

    • by nmaeda (5111) on 2011年09月17日 16時34分 (#2021080)

      UPSの導入や管理を担当していれば、接続する消費電力を意識するから、そんなことはなかったでしょうね。

      バッテリーの更新時に、新品のUPSと大差ない費用がかかったりして、悩んじゃうんだよね。終夜運転しているUnix WSだけど、NFSくらいでDBサーバとかじゃないから、小まめにバックアップしてUPSは止めようかなとか。

      親コメント
  • by ksh2ksk4 (11188) on 2011年09月17日 16時43分 (#2021085)

    ・作業員が誤って電源プラグ抜いちゃった
    ・メンテナンス対象外のサーバを落としちゃった

    馬鹿馬鹿しいというか信じ難いというか・・・

  • 以前「Windowsクライアントでhostsファイルに記入したはずのサーバーに通信できない」と言われて状況を確認すると、見栄えのためかhostsファイル中のIPアドレスが全オクテット3桁で記述されていたことがありました(25→025のように先頭0埋め)。
  • by Anonymous Coward on 2011年09月17日 17時10分 (#2021105)

    はるか昔のマシン IBM S/38 なんですが、納入し電源を初めて入れたその日に「緊急電源切断スイッチ」を納入先の社長が
    引いてハードディスク破損、緊急電源切断スイッチ交換(引っ張ると電源断となる構造で、部品交換しか復旧方法なし)に
    陥った事があります。

    本人曰く、いかにも引っぱって欲しそうな形だったと orz

  • by Anonymous Coward on 2011年09月17日 17時28分 (#2021115)

    ある日、ビルの漏電警報器がガンガン作動した。該当するテナントを絞り込み、あるコンセントを挿すと漏電するところまでは特定できた。しかし、なんど調べてもパソコン等に漏電してそうなところはない。ふと天からのささやき声が聞こえて?パソコンがつながってる電源タップのネジはずしてみたところ、なんと中の配線が間違ってた。その時はしばらく思考停止状態になってしまった...orz。

    • by elderwand (34630) on 2011年09月17日 22時11分 (#2021247) 日記

      PC関係じゃないけど、平行して走ってる2本の線(白と黒)にお祭りのランプを付けて行って、最後の端をじーっと眺めている人がいたので、「どしたん?」と聞いたら、「この端っこは繋いどかんといかんじゃないか?」とか言い出すので、慌てて周りの人が止めたということがありました。
      (なんとなく、連想した状況ですが、ひょっとしてそうだったりとか)
      #お祭りの電源を近くの電柱から拝借してたのは内緒。

      親コメント
    • by HAL9000markII (6414) on 2011年09月18日 9時56分 (#2021345)
      似たような話で済みません。
      自作の測定用装置を何台か作って設置したら、設備担当から『漏電してるぞ!』と御叱り電話が来ました。1台ずつ電源を抜いて行って漏電している個体を特定して、筐体を開けて電源周りを再確認するも誤配線等はなし。で、最後にまさかと思って電源ケーブル(普通の5-15PとC13がモールドされたやつ)を調べたら、LineとGNDが中で入れ違いになってました。
      購入先の商社にクレーム入れたら「お金返します。ケーブルは捨てて下さい。」そのしばらくして「やっぱり原因調査しますから、まだ捨ててなかったら返送してください。」
      送られてきた返送キットに詳細(っつー程のもんでもないですが)書いた紙と一緒に入れて送り返しました。返金はされましたが、調査結果はとうとう来ませんでした。(まあ約束もしてませんでしたし。何となく一言ぐらいあるかな~と期待してただけなんですが。)
      以来、検査項目がまた一つ増えました。
      親コメント
    • by kei100 (5854) on 2011年09月17日 18時06分 (#2021151) ホームページ

      電気は詳しくないんですが、グランドとコールドが間違ってたって事でしょうか?

      # 筐体触るとピリピリすると思ったら、グランドに電圧掛かってたという恐ろしい事件はあった・・・

      --
      誰も信じちゃいけない、裏切られるから。
      私を信じないで、貴方を裏切ってしまうから。
      親コメント
  • by Anonymous Coward on 2011年09月17日 17時32分 (#2021119)

    ある日突然、天井の板が外れてサーバ機をかすめて落ちた。
    原因は漏水。溜まった水の重みでパネルが抜けた。当然そこら中が水浸し。
    サーバ機への浸水も電源のショートも起きなかったのは、本当に運がよかっただけ。

  • by Anonymous Coward on 2011年09月17日 18時06分 (#2021149)

    とある病院。建物が古くなったので建て替え、それにともないシステムを一新することになった。
    機器の選定をし、各部署やサーバの電源容量を見積もり拡張も含め必要な電源容量と空調容量を設計に入れた。
    そして出来上がった建屋に機器を据え付けながら調整をしていると…容量不足で電源が落ちた…。

    はい、市役所から出向してきて雲の上で査定をしたお偉方で構成する委員会でコストを削減するためにシステム担当に確認もしないまま「大幅に安い機器」(容量が小型の発電機等)に置き換えて下さっていたのでした。他にも調べると、エアコンがサーバ室の独立ではなく他との制御が共用タイプ(つまり、冬季に暖房に切り替えられたらサーバ室も暖房になる)というサーバ室用の空調としては全く使えない代物が設置されていました。委員会は建物が出来た時点で解散して担当者は既に異動でいない。

    あまりにもバカバカし過ぎる人災。

  • by Anonymous Coward on 2011年09月17日 19時37分 (#2021196)

    小売もやってるアパレルメーカの店舗向けの受発注システムにHDDの代わりにフラッシュメモリー搭載のマシンを納入した。

    リリースしてしばらくしてから特定の店で報告されるデータの日付がたまにおかしくなる現象が発生した。
    いろいろと調べるがアプリ側に問題はないし、開発元のメーカもまったく原因不明のまま、
    とりあえず変になったら日付を直してねって運用になっていた。

    その後3年ほどたったある日メーカから原因特定したとの連絡が
    なにやら電源の瞬断が起きるとマシンは動作を続けられるが、たまにカレンダICの中の年の上2桁がリセットされることがあるらしい。

    対処方法はOSにパッチ当てして上2桁を20固定にすること
    まあ、100年使うシステムじゃないし…

typodupeerror

開いた括弧は必ず閉じる -- あるプログラマー

読み込み中...