
英ブリティッシュ・エアウェイズで発生した大規模障害に対し外注とコストダウンが原因ではないかとの指摘 38
ストーリー by hylom
なぜ回避できなかったのか 部門より
なぜ回避できなかったのか 部門より
あるAnonymous Coward曰く、
英ブリティッシュ・エアウェイズ(BA)でITシステムの障害が発生、ロンドン・ヒースロー空港とガトウィック空港からの出発便が27日全便欠航するなど大きく運行に支障が出た。祝日と週末が重なっていたこともあり、数万人の旅行計画に影響が出たと見られている。これに対し、IT関連の開発をインドにアウトソースしたことや大量の人員整理が障害に関係があったのではないかと、英全国都市一般労組(GMB)が指摘している(CNBC、日経新聞、Slashdot)。
アレックス・クルーズCEOはこれについて関連を否定、今回のシステム障害の原因はシステムの電源にあるとした。また、サイバー攻撃の証拠は存在していないとも答えている。現地では電源喪失後数分しかシステムが稼働しなかったこと、システムのバックアップも適切に機能しなかったと報じられている模様。
ニュースリリースとかで (スコア:2, 興味深い)
「わが社はこの新システム導入によりウン億円の節約に成功しましたぁ!」
とかの発表を見るたびに、ああ、数か月~数年後にひっそりと大規模システム障害が
発生して同じくらいの損失を計上するんだろうなぁと温かく見守ることにしています。
えぇ、すっかり大人になってしまったんです。
Re: (スコア:0)
で、実際にそんなケースがあったんですか?
そこまでの損失だとひっそりとはいかないとおもうのですけれども。
そう思いたくなる気持ちもわからないではないですが、
次へ進んだ方がよろしいですよ。
Re: (スコア:0)
クラウドの初期には各所で良く見られた光景だったけどね
Re: (スコア:0)
クラウドが流行って数年が経過した今になって『数か月~数年後にひっそりと大規模システム障害が』とか言ってるから『実際にそんなケースがあったんですか?』と尋ねているのに、
>クラウドの初期には各所で良く見られた
って、どういう返しなんだ・・・・・
Re: (スコア:0)
~って事件があったんだって!
へぇ、どこからの情報?
~ちゃんが友達からきいたんだって!友達は変な…以下略
にしかみえない
Re: (スコア:0)
元コメの表現に誤りがございましたので、お詫びして訂正いたします。
誤:すっかり大人になってしまった
正:歳をとってすっかりボケてしまった
語るに落ちてる感じがします (スコア:1)
>これについて関連を否定、今回のシステム障害の原因はシステムの電源にあるとした。
(CEOの発言)
>電源喪失後数分しかシステムが稼働しなかったこと、システムのバックアップも適切に機能しなかったと報じられている模様
(現地報道)
現地報道が事実と判明すれば、CEOの発言は...
「経費をケチッて管理が手薄になりまして、電源が落ちるわ、バックアップも機能しないわで、大変申し訳けありません」
と聞こえちゃいます。
予定通り? (スコア:1)
今回のは、繁雑期の故障起因システムダウン。
高負荷でへたった電源が死んで、冗長系に切り替え様としても、縮退時のスループット不足で溢れる筈の無いキューが溢れて全体ダウンって感じかな?
で、アウトソースが原因で無いと言いきれるのは、今回のような故障パターンだとシステムダウンが発生する危険が事前に指摘されてたが、可能性が低いと考えてリスクを取ったからではないか?
本来、繁雑期は書き入れ時だからシステムダウンのリスクは取れない筈。
でも、そのリスクを取ったって事は、実は整備リソース不足等で、元々繁雑期の機体フル稼働自体が出来ない運行体制だったのかも知れない。
つまり、今回のシステムトラブルが無くても、部分欠航が避けられなくて、高負荷運用が保証出来ないシステムでも問題なかったのかなと。
結果として、評判は落としたし、繁雑期の利益も取れなかった(これは元々ディスカウントしてて無かった可能性も有る)が、人身事故が起きなかったから最悪は回避出来たと言えるかも?
ま、かなり穿った見方なのは承知。
-- Buy It When You Found It --
Re: (スコア:0)
システムメンテの外注社員がうっかり電源落としちゃった [independent.ie]なんて冗談みたいな話もあるみたいだけど、どうなんでしょうねえ。
説得力 (スコア:0)
そのくらいでトラブルが増えるんなら、日本だと毎日トラブルだらけになるじゃん。
だから、えーっと、えーっと。
#みずほはいつ完成しますか?
Re:説得力 (スコア:2)
日本の場合はサービス残業と過労死による人柱で支えまくってるやん?
Re:説得力 (スコア:1)
日本の航空会社も整備を某国で行うことにしたらあまりにもひどいので結局日本側で再チェックする羽目になったことがあるらしい。
なんかやつら、締め付けの順番とかトルクとかまったく気にしないらしい。
Re:説得力 (スコア:2, 興味深い)
> 締め付けの順番とかトルクとかまったく気にしないらしい。
そうだね。でも外国の場合、末端の人ではなくシステムやテクノロジでそれに対応しようとする。
だから最悪なのは、末端の人任せの日本の体制に、外国人を入れた場合。
あー、なんか政府が外国からのIT技術者受け入れ増加とか言ってたな。
Re:説得力 (スコア:1)
こういった点が、日本は部分最適化(末端で解決)が得意だけど、全体最適化(システムで解決)が苦手と言われるゆえんですかねぇ。
Re:説得力 (スコア:2)
Re:説得力 (スコア:1)
それができれば苦労しない
Re:説得力 (スコア:1)
アメリカ人の指揮官に日本人の兵隊ですよね。
日本人エンジニアは外資系に行けってことか。
Re: (スコア:0)
それを言うなら、日本という国は、もっと大規模に社会をまるごと最適化することで
対処してきたから、そんなものは不要だったというだけの話だろうよ。
異常な識字率の高さ、モラルの高さ・・・日本がどれだけ特殊な前提条件下にある国
なのかをろくに認識もしないでおいて、ただひたすらに外国のやり方の方がいいんだと
思考停止してとりこむ阿呆が増えたことで当たり前に凋落してるだけ。
昔のやり方が今でも全てにおいて正しいというつもりはさらさらないけどね。
もうちょっと自分の頭で考えろという話。
Re: (スコア:0)
という批判ばかりの声が大きいから
身動き取れなくなっているだろうな
Re: (スコア:0)
身分が非正規雇用の使い捨て末端底辺でも頑張っちゃうからね日本人は
逆に世界的大企業が無能経営で長年の歴史に終止符うったり
Re:説得力 (スコア:1)
ココのネジ締めろ言われたら締めるだけで、指示されてない順番とかトルクとかは知りもしないよ。
作業者の管理の問題で有って、作業者本人の問題ではない
#日本でも新人が仕事できねぇとか腐るほど聞くけどそれって(以下略
Re: (スコア:0)
日本でもバケツで核物質を扱っていたやつらもいるし人それぞれだろ
# 割合は違うと思うがw
Re: (スコア:0)
日本は人件費が高いから人件費が安い国で整備、とかやったら、そこの整備体制が整ってなくてってやつね。
そして、その国の整備力が上がってきたら人件費も上がっちゃって、いつの間にか日本人より高くなってしまう。
それならば日本に戻そう、と思ったらすっかり日本からそういう技術継承は廃れてしまってダメという結果。
高度経済成長前からやり直すか?
低賃金低コスト低品質の日本の仕事から。
日本の整備士なんか、正規雇用じゃなくて非正規になっていたりするんじゃないのかな。
人を大事にしない国は弱体化するね。
Re: (スコア:0)
> 高度経済成長前からやり直すか?
> 低賃金低コスト低品質の日本の仕事から。
既に低賃金低品質にはなってるので、後はコストさえ下がればやり直せますね。
Re: (スコア:0)
安いのには理由がある。人件費が安くても高品質なサービスを提供できるなら人件費を安くして価格を相場並みにすれば儲けが増えるからな。それができないということはそういうことだ。
ミスリードだよなぁ (スコア:0)
「○○が障害に関係があった」と、「○○が障害の原因」とは、似たニュアンスだけど意味は違うよね。
似たニュアンスだけど意味は違う (スコア:0)
× 今回のシステム障害の原因はシステムの電源にあるとした。
○ 掃除のおばちゃんが原因。
Re: (スコア:0)
そらそうだ。だって言ってるのは労働組合だろ?
「俺たちに仕事回さないからこんな目にあうんだ」と言ってるだけだよ。
ANAの障害の場合 (スコア:0)
ANAのシステムがダウンしたときはCiscoのスイッチ故障が原因で、世界初の珍しい原因だと強調していたけれど、ミッションクリティカルなシステムで使うスイッチの構成じゃないと思った。
明らかに予算をケチったのが原因だろうと。
普通はスイッチが1台故障しても止まらないように構築するものだが、安くて機能不足のスイッチを使って障害時に自動的に切り替えるように作ったつもりになっていたところ、切り替わらなかったのが原因だったね。
人や技術にお金をかけない会社は、いつかしっぺ返しで損害を出したりするんだよ。
Re:ANAの障害の場合 (スコア:2, 興味深い)
あの件ではそもそも冗長は取られてたし、事前テストでの問題洗い出しも行われていた。
その上でシステム死亡時の代替手段も用意され訓練されていて実践までされたわけで。
あれ以上が必要だというプレゼンができるというなら見せてほしいね。これでとにかく
最高のものを使う以外ありませんとかこのメーカーしかありませんとか言いだすなら
最悪の無能だぞ。
どんな冗長システムでも、死んだことを認識できない死に方(ANAの例のような不調系の
死に方)をしたら自動的に切り替えるなんてできないし、本当の意味で万全な体制を
とろうとするなら高位レイヤ側まで全部含めて対応するしかない。そんなことしたら
機器更新のメンテナンスまで考えるとコストがとんでもないことになるのは明白で、
そこまで金かけられるのは命かかってる系くらいなもん。所詮予約系システムだから
あれでもかなり頑張ってた方だと思うがな。
Re:ANAの障害の場合 (スコア:1)
あの事件、未だにわからないことがある。「故障シグナル」ってなんだ?ってこと。Catalyst4948Eは故障した時にシグナルを発生するはずが発生しなかったという説明になっているが、SNMPトラップかSyslogのことだったのだろうか。それともCISCOオリジナルのなにかなのか、特注のシステムだったのか?なぜ詳細を語らないのか、語れないのか。故障した時にシグナルを発するって、自分が故障している以上、何が起こるか簡単には言えないはず。ANAが故障シグナルというあやしげなものを信用していたのだとすれば、最高の無能じゃないか?
Re: (スコア:0)
型番提示までしてあるんだからCiscoのマニュアルくらい読めよこの無能。
怪しげなものを信用していた?じゃあ何だったら怪しげじゃねえってんだよ。
そもそも最悪を想定して代替手段用意して訓練までされてたんだろうが。
何に文句言ってんだこの阿呆は・・・
Re:ANAの障害の場合 (スコア:1)
いやいやいやいや、あれを冗長っていっちゃダメだろ。
故障時にスクリプトでスタンバイしている予備機にきりかえてるだけじゃん。
素人がすぐ考え付く構成でも、スイッチをスタッキングにしておいて、サーバーはbondingとかで両方のスイッチと接続しておくってのが最低限だよね。
そんなに難しいものじゃない。
あれ以上が必要だってプレゼンするまでもなく、この一行の説明だけで十分。
あとなあ、ANAが使ってた構成と比べて格段に高いというわけでもないんだよ。
Re: (スコア:0)
報告書によれば、トラブル対応の過程で同機種に交換しても同様の問題が発生したそうで。
つまり仮にbondingしてあったとしても両方とも死んで終了なパターンだったわけだがw
事前テストで潜在的なバグを見つけたりもしてたという話といい、あれは本当に運が
なかったとしか言いようがないトラブル。しいて言うなら、冗長系は別機種を使うべき
だった、くらいなもんだが、現実問題としてそんな非対称構成にgo出せる奴はそうそう
いねえだろw
Re: (スコア:0)
強いて言えば今回の事象発生に対する対策としてはこのような手段も取り得たはずだ、なんてのは後出しだから言えるよなぁ。
冗長や機能継続性のとり方はどこまでどれだけやるかは千差万別。
いたずらにコストをかけることだけが正解ではない。手を抜けるところは抜くのもやり方。
リスク評価やコストのすり合わせをきちんとやったうえで起きた障害ならそれは織り込み済みとすべき。
絶対障害の発生しないシステムは有り得ない。
それであれば、どこに線を引くかが設計になる。
Re: (スコア:0)
言うと何だが、インフラ系は全部命かかってる系じゃなかろうか?
もちろん墜落だって考えられるが、交通機関の麻痺でも(社会的に)命を切り落とされる人はいるだろう。
日本の高度成長期と経済発展の基礎はインフラに対する信頼感(定刻現着や予約システムの充実など)にもあると思っているので、まさに今回のような問題がぶっ刺さるんじゃないかと。
#本来はそれによるコスト増大の補填として国営化や公費投入があるのに"自由化"ときたら…
Re: (スコア:0)
>人や技術にお金をかけない会社は、いつかしっぺ返しで損害を出したりするんだよ。
かけたらかけたで、コスト意識が足りねえ、ムダだ、もっと安くやれ、って顧客にも株主にも言われんだよ。
ダメコンを認めないオールorナッシングな社会のほうが変わらないことにはどうにもならない。
原因はシステムの電源… (スコア:0)
やっぱり掃除のおばさんをアウトソーシングしたのが原因なんじゃないの?
バックアップも機能しなかったというか…UPSはどうしたんだよ…
コストカットしか考えてない馬鹿ってまじうざい