
3日のANAの障害原因はソフトウェアの不具合 14
ストーリー by nagazou
エラー 部門より
エラー 部門より
全日本空輸(ANA)は7日、3日に発生したシステム障害の原因と再発防止策を発表した。この障害は「予約・販売・搭乗手続き」に関する国内線のシステムで発生、3日の午後2時10分ごろから各種手続きがストップし、遅延や欠航が相次ぐ事態となったというもの(ANAリリース、日経クロステック、ITmedia)。
原因に関しては国内線旅客システムのデータベースのソフトウェアの不具合が生じており、予約管理業務のために、特定のデータを抽出する日常の処理において、ソフトウェアのバグに起因したエラーが発生したとしている。これによりデータベースサーバ2台が一時的に高負荷状態になり、サーバ2台が同時に停止したという。同社では今後、制御プログラムの強化やバックアップシステムへの迅速な切り替えなどの対策をおこなうとしている。
あるAnonymous Coward 曰く、
原因に関しては国内線旅客システムのデータベースのソフトウェアの不具合が生じており、予約管理業務のために、特定のデータを抽出する日常の処理において、ソフトウェアのバグに起因したエラーが発生したとしている。これによりデータベースサーバ2台が一時的に高負荷状態になり、サーバ2台が同時に停止したという。同社では今後、制御プログラムの強化やバックアップシステムへの迅速な切り替えなどの対策をおこなうとしている。
あるAnonymous Coward 曰く、
OracleRACが脳裏をよぎったが実際の原因はいかに。
ぷぷぷ (スコア:3, 参考になる)
>バグは既知のものでパッチもリリースされていたが、同社はシステム構成上パッチ未適用でも問題ないとみて適用を見送っていた。
ANAシステム障害の原因判明、DB並列参照時にパッチ未適用の既知バグでフリーズ
https://xtech.nikkei.com/atcl/nxt/column/18/00001/07915/ [nikkei.com]
Active-Active構成かー。
Re:ぷぷぷ (スコア:1)
5年前のバグ放置は問題か、それとも5年表面化しなかったのだから未適用でも問題ない判断は正しかったのか?
Re:ぷぷぷ (スコア:1)
動いているものはいじるなの精神。
Re: (スコア:0)
昔からどんなシステムでもハード・ソフト両面でコンポーネントの保守サポート期限、ベンダーのサービス変更や撤退や細かいセキュリティ脆弱性があるので「動いているからいじらない」というのは動いているシステムに対して誤った思想。
規模は違えどソユーズ宇宙船などの枯れきったシステムでさえ、当初から今に至るまでずっと改善を続けている。
そもそも開発・展開・運用・更改のどのステップも手続き自体は結局人がやるのだから、長いあいだ塩漬けにしたらやる方も腕がなまるんだよ。
だから注意深く更新プロセスを組んで、定期的に更新しながら小さな失敗や改良の種をフィードバックして常時改善するのが正しいシステム運用。
一回作って放置していいのは芸術品のオブジェだけ。
予算が足りないから更新を止めるというならシステムの把握に問題が起こることを覚悟する必要がある。
Re: (スコア:0)
5年前の時点では正しい判断だったと思うけど、5年の間にマイナーアップデートとかしなかったのだろうか。
まさかパッチ1つもあててないとかないですよね?
Re: (スコア:0)
客の数によって機体の重量計算とか座席の再配置とかしないとならないので、バッチ処理で済ませる訳にもいかんのですよ。
Re: (スコア:0)
事前にデブが何十人乗るかの情報は誰にもわからないのに
Re: (スコア:0)
それはDBMSを使ったってわからない。自分の知らない謎テクノロジーを導入すれば、それが責任取ってうまくやってくれるだろうと期待するのは間違い。
Re: (スコア:0)
ユニケージ開発手法 [wikipedia.org]
トラブル前にチェックインしたものの (スコア:0)
当日予約変更ができない特典券で、待っている間にフライトが遅れて悲しいことに。
※ダメ元で予約変更できるか聞けばよかったな
むしろ (スコア:0)
掃除のおばちゃんのせいにしないだけ偉い
Re:むしろ (スコア:1)
掃除の人はともかく、「外部から攻撃された」と言うと
例えそれが嘘でも逮捕者が出る国だからなあ。冗談にならない部分もある。