みずほ証券、「まれに起こる」ソフトの起動処理の順序逆転でシステム障害 76
ストーリー by nagazou
こんなことが 部門より
こんなことが 部門より
みずほ証券で5月12日、同社の運用する個人向けネット証券取引「みずほ証券ネット倶楽部」でシステム障害が発生した。この障害は8時40分から12時30分にまで及んだ。これによりネット経由での注文ができない顧客が発生、ユーザーは取引店や電話で注文を行うハメになったようだ(日経クロステック、みずほ証券:ネット倶楽部サービス不具合に関するお知らせ)。
日経クロステックの記事によれば、障害発生の間、こうした取引店や電話経由で取引を行った約定件数は約4300件。顧客数では約3000人に達したとしている。障害の原因はソフトウエアで通信エラーが発生したことが原因だが、毎朝自動で実行する当該ソフトの起動処理の順序が何らかの理由で入れ替わったことにより、アクセス権限の不一致が発生。その結果として通信エラーが発生したとしている。この事態は「まれ」に起こることが判明してはあるものの、なぜこうしたことが起こるのかは分かっていない模様。
あるAnonymous Coward 曰く、
日経クロステックの記事によれば、障害発生の間、こうした取引店や電話経由で取引を行った約定件数は約4300件。顧客数では約3000人に達したとしている。障害の原因はソフトウエアで通信エラーが発生したことが原因だが、毎朝自動で実行する当該ソフトの起動処理の順序が何らかの理由で入れ替わったことにより、アクセス権限の不一致が発生。その結果として通信エラーが発生したとしている。この事態は「まれ」に起こることが判明してはあるものの、なぜこうしたことが起こるのかは分かっていない模様。
あるAnonymous Coward 曰く、
みずほ証券システム障害で約3000人に影響、起動処理の順序逆転で通信エラー
https://xtech.nikkei.com/atcl/nxt/news/18/10357/
ネット倶楽部サービス不具合に関するお知らせ(過去掲載分)
https://www.mizuho-sc.com/information/netclub_info/index.html
サービス不具合が発生するのは (スコア:2)
不具合ではなく仕様通りなのかもしらない。
Re: (スコア:0)
まれによくある
Re: (スコア:0)
100回問題なくても5000回だと一回変になるとかは…
ないでもない。
Re: (スコア:0)
組み込みで、まさしく、まれによくある
なんか、起動順番や時間制約を守れる方法論なりフレームワークがあればいいのにね。
Re:サービス不具合が発生するのは (スコア:1)
規制が絡む部分は、手製側でかんたんなコマンドが通るまでロック。
どちらも、予測以上に時間がかかった場合はエラー通知。
Re:サービス不具合が発生するのは (スコア:1)
> なんか、起動順番や時間制約を守れる方法論なりフレームワークがあればいいのにね。
そのために、あるモジュールが正常起動したら特定の文字列が入るテキストファイルとか都度生成しては、次に起動するモジュールがチェックしてそのファイルを消しってのをするんじゃないの?
原始的だけど確実よ。
Re: (スコア:0)
「チェックして消して」だとatomicにならないじゃん。リネームするんじゃないの?
Re: (スコア:0)
フラッシュメモリだったら、起動回数によっては書き換え回数をオーバーするから危険な気がする。
HDDのシステムをフラッシュに移行して、処理はそのままとか、ありそう。
Re: (スコア:0)
組み込み向けOSではそういうスケジューリング問題はとっくに議論され尽くしているのでは?
デスクトップ・サーバ向けOS使ってるのなら知らんけど
Re: (スコア:0)
そりゃファイルサーバー・データベースサーバー・バックアップサーバー・ルーターが立ち上がっていなければ、それらに頼ったサービスは出来ない。
Re: (スコア:0)
不具合ではなく仕様通りなのかもしらない。
もしかして。。。起動せんしガンダム
Re: (スコア:0)
仕様通りというか、単に異常ルートを作り込んでいないんじゃない?
起動順序が狂ったというか、依存するサービスが起動していなければ wait する処理が抜けているだけじゃないかな。
依存するサービスがあるなら起動順序を制御するのが普通だと思うけど。
障害の原因的には「まれに」でも (スコア:1, おもしろおかしい)
みずほ銀行補正で発生率が上がる、ぐらいまでありそう?
「みずほ銀行 このカードが場に出ている間、全ての《システム》は障害発生率が+5される。また障害発生時の信用低下量が2倍になる。」
Re: (スコア:0)
いわゆる「まれによくおこる」という奴ですね
Re: (スコア:0)
Re: (スコア:0)
報道のされやすさや記憶への残りやすさについてはみずほ補正はあると思う。
他の銀行や証券会社との障害発生率の差も見てみたい。
Re: (スコア:0)
なにその凄いバフ! ぇ?デバフなの?
みずほ呪われてるな (スコア:0)
何処のシステムベンダーだよ、毎回毎回
Re:みずほ呪われてるな (スコア:1)
銀行と証券は別会社で、開発も別だからね。
証券のシステムは2018年では、日立とみずほの共同開発だけど、システム名が違うので別の会社が開発してる可能性はあるね。
旧の頃の合併がまだ影響してたりして?
Re: (スコア:0)
何処のシステムベンダーだよ、毎回毎回
損失出すなって意味では碌でもないですが
権限無視で走っても正常に動くより遥かにマシな設計かと
# きっとリアルの指示権限でもデッドロック発生が日常茶飯事みたいな
Re: (スコア:0)
下と比べて何か意味があるの?
Re: (スコア:0)
ベンダーをいくら変えても不具合連発。
つまり原因はベンダーではなく、みす・・・
Re: (スコア:0)
たぶんそれよね
この前の連続障害連発も個別に見ると同一ベンダーってわけじゃなかったし
今回もまた違うベンダーとかありそう
まだみずほ使ってるやつって (スコア:0)
マゾなの?
Re: (スコア:0)
宝くじ当たれば嫌でも使うでしょう。
Re:まだみずほ使ってるやつって (スコア:1)
// ですもんね
Re: (スコア:0)
今はネットやATMでも買えるしなあ
紙のやつでも受け取りに店舗行くだけで口座までみずほ指定じゃないんじゃないの?
Re: (スコア:0)
ヒント:振込手数料と税金(特に贈与税がめんどくさい)
Re:まだみずほ使ってるやつって (スコア:1)
Re: (スコア:0)
そうは言うが、結局のところ影響を受けたことない人が大半なんじゃないの
これは (スコア:0)
稀によくある現象ですね
なぜこうしたことが起こるのかは分かっていない模様 (スコア:0)
printf()あちこち入れて直るかどうか試してみてはどうだろうか。
Re:なぜこうしたことが起こるのかは分かっていない模様 (スコア:1)
それでタイミングが変わってちゃんと動くようになって、
> printf(なんとか); /* この行を削除すると動かなくなる */
ってコードが入ることになるんですね。。
Re: (スコア:0)
順番が入れ替わるんだからマルチタスクで処理していてスケジューリングがちょっと変わった時なんだろうか
Re:なぜこうしたことが起こるのかは分かっていない模様 (スコア:1)
#これの何が問題かわかる人間はバカらしすぎて突っ込む気力が沸かないので、この手の問題は放置されがち。しばらく放置して手作業で起動すれば何の問題も起きないしな。
Re: (スコア:0)
資源の排他制御やタスク出力の依存関係を制御せず運良く動いてるプログラムがインフラを担っている恐怖
「余裕じゃねーよ!ちゃんと制御しろよ!」
#自分が新人の頃マルチタスクの事をまったくわかっていないリーダーが設計したシステムの尻拭いが大変だった
Re: (スコア:0)
直列で処理しなきゃいけないとわかっている処理を並列マルチタスクでやってて
原因はよくわからないと言ってるならその人の頭がバグってることになる。
Re: (スコア:0)
昔はジョブネットの集合体だったけどなぁ。
「記録媒体を磁気テープからHDDにするのに、ジョブの実行速度に影響が出て順番変わったら怖いから、HDD装置のファームウェアに手をいれて磁気テープ相当にリミッターかける」とかやってたし。
今どうなのかは知らんけど。
何度も遭遇 (スコア:0)
Windowsではよくあったので、サービス依存関係を手動で設定したり、
プログラム起動前のウェイト時間を設定ファイルに書いておいて、
一定秒数待ってから起動とかよくやった
UNIXの場合は、むかしは設定順に起動してたのが、
最近のLinuxは、起動時間高速化のために並列で各種デーモンを起動したりてるので、
まれにおかしなことになる
起動時間高速化のためのデーモン並列起動は、クラウド業者からの強い要望もある
Re:何度も遭遇 (スコア:1)
Aソフトが起動完了したらA'ファイルが作成されるのでそれを待ってBソフトを起動
みたいなことをしないと起動順序が前後するから単純なWAITは下策だと思う。
# 起動順序が重要な場合は特に。
Re: (スコア:0)
いまのLinuxはたいていsystemdじゃないんですか。
Re: (スコア:0)
Requires/Wantsに入れたけどAfterに入れ忘れているとか?
(それなら根気強く探せば見つかるはずだとは思いますが)
あとは複数台サーバーがあって、同期が必要とか?
(私はそんなサーバー管理したことないですけど)
Re: (スコア:0)
systemdにしたら、dhcpからIPアドレスを取得する前にユーザーがログインできるようになってしまった。
面倒だから放置。
Windowsではよくあること (スコア:0)
更新直後や再起動したあとに
いつもと挙動が違うトラブルは大抵こんな感じですが
まさかWindowsと同じじゃないですよね?
Re: (スコア:0)
Linuxではよくあったな。
更新かけただけでぶっ壊れて二度と起動しなくなったこと。
Re: (スコア:0)
kwsk
Linuxだとどこで判断して順番が違うってわかるのかな?
教えてください。
Re: (スコア:0)
Ubuntuでただアップデートマネージャーでアップデートかけただけだよ。それでご臨終。
ジョブ管理システム (スコア:0)
なに使ってるのかな
systemdを使え! (スコア:0)
なに?もう使ってる?systemdなんか使うからこういうことになるんだ。
Re: (スコア:0)
なに?もう使ってる?systemdなんか使うからこういうことになるんだ。
逆です
systemdにみずほのシステムを内包しなかったからいけなかったのです(オイヤメロ