パスワードを忘れた? アカウント作成
12726967 story
バグ

全日空でシステム障害、4台のサーバーが順にダウン 64

ストーリー by hylom
連鎖 部門より

3月22日、全日本空輸(ANA)のシステムに障害が起き、乗客の搭乗手続きなどが行えなくなるトラブルが発生した。同日午前11時半ごろには復旧したが、この影響で多数の便が欠航・遅延している。さらに、同じシステムを利用するスターフライヤーやエアドゥ、アイベックスエアラインにも影響が及んだとのこと(日経新聞朝日新聞)。

朝日新聞の別記事によると、搭乗手続きや予約・販売業務関連データを保存しているサーバー4台のうち1台が22日午前3時44分ごろ停止。さらに残り3台も午前8時20分ごろまでに停止したという。復旧作業が行われたが、「2台目を立ち上げると、1台目がダウンする状況が繰り返された」ために復旧に時間がかかったようだ。

この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
  • by Anonymous Coward on 2016年03月23日 16時06分 (#2985097)

    www.unisys.co.jp/tec_info/tr118/11807.pdf

    2013カットオフのシステムでHP-UX!

    • Re:詳しいシステム構成 (スコア:2, おもしろおかしい)

      by Anonymous Coward on 2016年03月23日 18時01分 (#2985183)

      そのPDFの11ページ目に意味不明なことが書いてある
      >「また,ネットワーク機器のカタログスペックでは,データ処理レート(Mbps)は
      >公表されているものの,単位時間のパケット処理能力は公表されていない」

      インターコネクトに流れるデータ流量は100Mbps以下に抑えたのでCat2960で大丈夫の筈が
      ショートパケットばっかりだったから3750が必要になりましたって話だけど
      エンタープライズ向けのネットワーク機器でpps書いてない機材なんかあるか?

      親コメント
    • by Anonymous Coward on 2016年03月23日 16時38分 (#2985112)

      DB・運用はHP-UX+HP ServiceGuard、APバッチジョブログはRHEL+CLUSTERPROだね。
      発端はDBだけど、現象はAP側とDB側で稼働待機上げあいってとこかね。
      CO後初ディスク物理クラッシュとかでありがちなパターンじゃね?

      親コメント
    • 2013カットオフのシステムでHP-UX!

      HP-UX ってそんなに問題あるんですかねぇ?
      7~8年前に一度だけ使ったときに「ユーザ名やホスト名は8文字以内にしてね」と言われ、
      運用ルールだと思ったら実は OS 自体の制約だと知ったときには、古臭すぎると思ったけど。

      親コメント
      • by adeu (2937) on 2016年03月23日 17時01分 (#2985135)
        そのむかーし、SunOSのファイル名が255文字までだったのに、HP-UXは14文字までしか許してなくて。あるCADソフトウェアがファイルシステムの中にストラクチャデータを展開するのに、ストラクチャ名が32文字までというGDSIIの上限に全然マッチしてないおかげでなにかと不便だった。
        親コメント
        • by Anonymous Coward

          cadenceとmentorのどっちだ?
          #どう見ても同業者なのでACw

        • by Anonymous Coward

          GDS2なんて名前を聞いたのは何十年ぶりかなぁ
          この手の業界のインフラになってるフォーマットは寿命が長いからな
          もう業界人じゃないんだけど、まだ使われてるの?
          #MT抱えて右往左往していた俺はもう老人というのは内緒

    • by Anonymous Coward

      担当者の顔が、高橋某作画で再生されました
      「石崎!」「滝沢!」

    • by Anonymous Coward

      カットオフ? と聞いて不思議に思って調べたらやっぱり自分が知ってた意味以上のことはわからなかったんですが、
      (意味的に) 新しい造語ですか?

  • by ymasa (31598) on 2016年03月23日 17時23分 (#2985150) 日記

    「えきねっと」などでシステム障害 JR東日本
    http://www.asahi.com/articles/ASJ256VN4J25UTIL05Z.html [asahi.com]

    JR東日本は5日、インターネットを通じて特急券などを予約できる「えきねっと」と「モバイルSuica」でシステム障害が起きたと発表した。同社によると、5日午後3時55分ごろから約4時間にわたって、新幹線や特急の切符購入、予約変更などができない状態が続いた。

    【お詫び】特急券システム障害の再発防止について
    http://www.seibu-group.co.jp/railways/news/information/__icsFiles/afie... [seibu-group.co.jp]

    2016 年 2 月 10 日(水)ならびに 2 月 23 日(火)から 2 月 26 日(金)にかけて一時的に特急券システムの障害が発生いたしました。

    • by Anonymous Coward on 2016年03月23日 22時58分 (#2985318)

      というか、とくにANAがひどい。デジャヴかと思ってぐぐったら出るわ出るわ。

      全日空,システム障害の原因はルーター設定ミス。バックアップ処理のバグで追い討ち
      http://itpro.nikkeibp.co.jp/free/NCC/NEWS/20030324/6/ [nikkeibp.co.jp]

      障害の原因は、データセンターに置いた2つあるスイッチのうち、1つのスイッチ内にある制御回路のメモリが故障したことによるものだった。
      http://itpro.nikkeibp.co.jp/article/NEWS/20071029/285786/ [nikkeibp.co.jp]

      暗号化認証機能の有効期限が切れる
      http://allabout.co.jp/gm/gc/296766/ [allabout.co.jp]

      行政処分もんだと思うけど。

      親コメント
    • by Anonymous Coward

      インフラ系ばかりやって来ましたが、近年期間とコストの圧力を強く感じます。
      昔は、汎用機とかの時代を知っている人も多かったですし、特に運輸や金融系のお客様は、安全を考えたら金と時間がかかるのは仕方ないという了解が相互にあった気がします。
      ※だからといって許してはくれませんが
      ※アプリは知らないです。あくまでインフラ

      今はクラウドだとか持て囃されすぎて、用途にそぐわない、無理な設計を無理な工期で求められる事もままあります。
      SEとかはアプリ側が目立つのもあってインフラの技術者が、顧客、ベンダ双方で充分な人材が確保できていないのも問題ですね。

      ※今無理なプロジェクトでのたうちまわっているのでACで

  • by Anonymous Coward on 2016年03月23日 21時57分 (#2985291)

    これのせい(お陰)でベルギーに行けなかった人とかいたりして。

    • by Anonymous Coward

      東京モノレールの遅延のお陰で123便の難を逃れた話思い出した

    • by Anonymous Coward

      寝坊したら地下鉄サリンで電車止まってたの思い出した。
      起きてテレビ見たら自分が降りる駅が大変なことになってた。

  • by Anonymous Coward on 2016年03月24日 5時40分 (#2985383)

    銀行などシステム障害がニュースになって思った事。

    障害はコントロールできない

    特にハードはどういう壊れ方をするか予想がつかない。
    対して障害対策は単なる二重化など、想定している障害の具体化が不十分

    ここからは試案だけど、アクティブなアプローチとかあっても良いかと思う。
    例えばハニートラップよろしく、わざと弱い部分を作って置き、
    そこで検知されたら広範囲で交換するとか。まぁ、保証期間とか消費期限とか
    をうまく使って。

    今回の様に、故障が広範囲に及ぶまで耐えるシステムより、
    小刻みに不具合を出すけど、全体のダウンタイムは小さく抑える
    システムがこれから有効なんではないか、と。

    セールス用のバズワードに使えるかな?

    • 「アクティブなアプローチ」の例として、Netflixでは、Chaos Monkeyというツールを作って、常時意図的にシステム障害を起こし続けているそうです。

      これは、システム障害が起きてもサービス全体が停止しないようなアプリケーションを開発するように、開発者を条件付けるための仕組みといえます。

      銀行の基幹系や航空会社の運航システムのように、部分的な誤りも許容できないシステムでは、いくらか異なるアプローチが必要になろうとは思います。ただ、考え方は使えるかもしれません。

      親コメント
    • by Anonymous Coward

      昔のホストからそんなことやってるでしょ。
      それに今だってサポート期間があって壊れる前に更改してるよね?

    • by Anonymous Coward

      壊れ方が予想がつかないとか言っておきながら
      弱いところから異常が起きると仮定しているところが草

      • by Anonymous Coward

        システムのどの部分がどう壊れるのか予想がつかないんだから、
        今回もやったように、アナログ運用でも回せるように準備して
        おくのが、一番臨機応変に対応できるよね。

  • by Anonymous Coward on 2016年03月23日 16時59分 (#2985134)

    結局何をどういうふうにして復旧させたんでしょうかね?
    サーバーを立ち上げ直してもダウンするとかいう現象だったということですが。

    なにかプログラムを変更したのでしょうか?

    • by Anonymous Coward

      落ちないお札とか貼ります。

    • by Anonymous Coward

      巫女さん呼んでくるんじゃね?

      #それは落とすほう。

    • by Anonymous Coward

      サーバーを2台以上立ち上げると死ぬので、結局1台だけ立ち上げて負荷を絞って乗り切ったそうです。
      根本原因は不明だけど、たぶん今必死になって直してる(汗

      # ってもう一個のタレコミ [srad.jp]にはその辺まで書いてあったんだけど、遅かったので見落とされたみたい

  • by Anonymous Coward on 2016年03月23日 17時14分 (#2985143)

    対応してた中の人の脇汗は2リットル以上だろうな。

    • by Anonymous Coward on 2016年03月23日 17時44分 (#2985166)

      http://it-toranoana.com/2016/03/22/ana-trouble/ [it-toranoana.com]

      こういうとき私のようなシステム屋は「ああ、こりゃ現場は大変だろうな」とか思ってしまうのは職業病でしょうね(笑。今頃お祭り騒ぎですよ。システムエンジニアは3日間くらい徹夜で復旧作業でしょうね。ほんと大変なんですよ、復旧したあとも色々とね・・・

      実際、その影響よりも裏側のことが気になってしまいます。こういうとき不謹慎かもしれませんが、現場は結構盛り上がっているんですよ。システムエンジニアあるあるなんですが、大障害ほど盛り上がるイベントはありません。(影響が出た方はほんとに大変だと思いますが)

      現場の状況は”お祭り騒ぎ”という言葉が一番合ってると思います。コントロールセンターにはたくさんの人が集まっていますし、社内の有識者はほぼ総動員です。こんなにタレントが揃うことはないですよ(笑。そこかしこで大小の会議が行われているし、ホワイトボードには障害の経過が書きこまれ、原因や復旧策についてみんなであーだこーだ言っています。

      いつもは静かなオフィスですが、障害のときは異様な盛り上がりを見せるのです。障害を経験するとシステムエンジニアは本当に何段階も成長します。それくらい色んなことが現場で起きています。みんなで一つの目標に向かって、がんばってるわけですからそりゃあ盛り上がりますよね。(後始末はもっと大変なんですけどね・・・)

      親コメント
    • by Anonymous Coward

      ポジティブに考えよう。3連休中じゃなくてよかったと。

      • by Anonymous Coward

        でも年度末で春休み期間で航空運賃が高くなっている時期なんだよなあ

      • by Anonymous Coward

        ポジティブに考えよう。3連休中じゃなくてよかったと。

        3連休あけて次の日仮病欠して4連休にしちゃった人はたいへんだろうね。
        空港にいたらニュースに出ちゃったとか。

        • by Anonymous Coward
          トムハンクス主演で映画化の流れ
  • by Anonymous Coward on 2016年03月24日 2時07分 (#2985365)

    4nodeのOracle RAC構成のDBが順繰りに死んだ、って事象みたいですが、よくあることです。
    RACは2nodeに限る……。

    • by Anonymous Coward

      これかな

      経験的にいって、OracleRACは1ノードで回せるスペックで多ノード構成による
      クラスタじゃないとこういう事になるので完全に設計ミスってる気がする

      • by Anonymous Coward

        linuxのほうがマシという現実

typodupeerror

私は悩みをリストアップし始めたが、そのあまりの長さにいやけがさし、何も考えないことにした。-- Robert C. Pike

読み込み中...