6月7日に大阪市のシステムで障害が発生、住民票や保険年金関係、介護保険関係などさまざまな業務で書面や証書の発行ができない状況になっていたという(大阪市の発表)。復旧作業は8日に完了し、10日より通常業体制に戻っているようだ(大阪市の続報、日経新聞)。システム停止の原因は調査中とのことだが、データベースを管理するファイルに不具合があったことが報じられている。
えーと (スコア:3)
「データベースを管理するファイル」って
なんの事だろう?
Re:えーと (スコア:5, 参考になる)
システムファイルだそうです。
[独自記事]大阪市システム障害で新事実、破損したDBMSはOracle RAC
https://tech.nikkeibp.co.jp/atcl/nxt/news/18/05221/ [nikkeibp.co.jp]
Re:えーと (スコア:3)
情報ありがとうございます。
偶然同時に同じファイルが壊れるとは思えないから、原因突き止めないと不安だなぁ
「壊れるメカニズム」が存在してそう。
Re:えーと (スコア:1)
システムファイル壊れてシステム機能不全になるならRACの値打ちないなー。
両ノード同時にファイルが壊れて機能不全というのはわかるけどRACの値打ちないなー。
RACの仕組みなのかファイルシステムのせいなのかは記事からはわからないですけど。
#1x年以上前にRAC構築したりしてました。
Re: (スコア:0)
確かに酷いですね。これじゃRACの意味ないじゃん。
Re:えーと (スコア:1)
全部が同時に壊れることも十分考えられそう。
Re: (スコア:0)
RACですからデータベース本体も共有ディスク内にあるはずですよ。
> データベースを格納するストレージは共有となっており、2ノードのサーバーのいずれからもアクセスを受け付ける構造
とも書かれています。
ちなみにRACは両アクティブの冗長性のメリットを打ち消すくらいトラブルが多いです。
アクティブ=スタンバイ構成のほうが精神的にもずっとマシです。
Re: (スコア:0)
>ちなみにRACは両アクティブの冗長性のメリットを打ち消すくらいトラブルが多いです。
プラットフォームに依るんですけどね。きちんと組めばちゃんとRACの本領を発揮できる構成もありました。(過去形)
が、今となっては
>アクティブ=スタンバイ構成のほうが精神的にもずっとマシです。
仮想化技術とか諸々RACじゃなくてもよい構成で組めますね。
どの程度の可用性を求めるか次第ですけど。
Re: (スコア:0)
RACだと二台同時稼働だけどアクティブ=スタンバイ構成だと一台は待機してるわけでもったいないとかなんとか。
一台に縮退した時点でさばける量が半減するわけだから構成するの難しそうだなとか、そもそも額面通り動かないとか色々あるんでしょうけど。
幸か不幸か実運用ではやったことないな。まぁ客が金ないだけなんだけど。
Re: (スコア:0)
もしやSolaris & zfsか?
Re: (スコア:0)
「システムファイル」ってなんの事だろう?
システム停止の原因 (スコア:0)
知りたいのはそこじゃない。どこがやらかしたかだ!
Re:システム停止の原因 (スコア:2, 参考になる)
> どこが~?
もちろん、大阪市がやらかした。
って揚げ足取りはおいといて、
今回の障害との関連性は不明だが、委託先をググると
「基幹系システム統合基盤(別名:統合基盤システム)」の業務委託を受けているのはNTTデータ関西、
「住民基本台帳事務システム」もNTTデータ関西。
それと、この資料 [osaka.lg.jp]を見ると、
統合基盤システムのリース機器の保守には、日立キャピタルも関わっている。
もちろん、あくまで主な業者・元請けとしてであるし、数あるソフトによる競合とかも考えられるから、何が引き金になったかは、続報を待つしかない。
なお、「大阪市統合基盤システム」でググると、サジェスチョンに「oracle」というキーワードが出てくるのは、はて、何ででしょう?
Re: (スコア:0)
NTTデータ関西だよ。
Re:システム停止の原因 (スコア:1)
Oracle [srad.jp]かもしれぬ。
こんな感じかな (スコア:0)
夜間、手元のOracleSEではそのパラメータは再起動するまで有効にはならなかったから…なんて程度の検証で、誰かが作ったボタン一発で両ノードのpfileを書き換えてくれる便利なツールで気になるパラメータをちょこっと書き換えたが、設定値が間違っていた上にその間違えているパラメータが即座に有効になってしまい、サーバがダウン、と。
で、pfileを見てみると仕様書通りでない値になっており、
ベンダ「pfileが不正な状態である」
大阪市「pfileって何だ?」
ベンダ「データベースを管理するファイルである」
なんた会話があり、大阪市は「データベースを管理するファイルに不具合があった」と報告。
夜中にやらかした保守の派遣社員は携帯スマホの電源切って北海道へ逃避行中。
Re:こんな感じかな (スコア:1)
Re: (スコア:0)
pfileって修復に20時間もかかるん??
Re: (スコア:0)
本当に仕様書通りではないって状態であれば、「何が正しいの?」ということにもなり、過去の経緯や作業履歴をひっくり返す必要もあるので、20時間ですめばマシなのではないか。
Re: (スコア:0)
一旦変更前に戻すだけだろ。
20時間もかかるかよ。
やりたかった変更を適用するのはそのあとだ。