
大阪市のシステム障害、2ノードのOracleデータベースサーバーで同じシステムファイルが破損したことが原因 41
ストーリー by hylom
Oracleのバグだろうか 部門より
Oracleのバグだろうか 部門より
6月7日に大阪市のシステムで障害が発生するトラブルがあったが(過去記事)、このトラブルの発端は同システムが採用していたOracle Databaseのシステムファイル破損だったと日経xTECHが報じている。
データベースはOracleのデータベースクラスタ技術「Oracle Real Application Clusters」を使って2重化されていたが、2ノードが稼働していたデータベースサーバーがほぼ同時に停止。調査を行ったところ、同じシステムファイルが破損していたことが分かったという。システムファイルを復旧させたところ、データベースは復旧したそうだ。
同じシステムファイルがなぜほぼ同時に破損したかは不明だという。
人類に高可用性システムは早すぎた (スコア:3, すばらしい洞察)
随分前にANAでもRACでトラブったの以前ニュースになってたね。
正副自動で切り替える仕組みオフコンの頃からずーっとトラブルの元だが
やっぱり人間がちゃんと運用していくには難しすぎるんじゃないのか
もう諦めた方がいいんじゃないのか
止まったら手で切り替えようよ
それかビール飲んで忘れよう
Re: (スコア:0)
賛成賛成
Re: (スコア:0)
Oracleライセンス費用が高くなりますがftServerはいかがでしょうか・・・
Re: (スコア:0)
北海道で飲むビールはうまいか?
Re: (スコア:0)
この手のシステムにはある仕組みが不可欠ですからね。
そう。人類には早すぎると定評がある排他制御です!
Quorum SystemなんかはもうMAGI Systemにしか見えないし、
ブレインがスプリットしたり、全てを忘却したりで、いつ自立自爆が提訴されるか不安しかありません。
Re: (スコア:0)
本件ではないが、実は別の因子でDBが壊れる不具合はしってる
Re: (スコア:0)
後学のために教えて頂けますか
Re: (スコア:0)
いくつかの障害シナリオには役に立たず、御守りにしかならないことは分かっていても、Oracle RACは『顧客』に『安心』を提供してくれる。
交通安全の御守りは「安全」じゃなく、「安心」を提供するのと同じ。
高可用化ソリューションは、顧客が技術的な困難を理解するのが難しくても、1つより2つの方が良い、安心できるから売れているんだと思う。
金持ちの不安解消のための商売は古今東西。占いとか無くならないのはそういう理由。
この手のシステムの名誉のために言っておくと、
まあ、完全保証なんて無理なんだから、99.99%のレベルでさ、諦めておこうよ。
Re: (スコア:0)
続報 (スコア:1)
おそらく (スコア:0)
システム領域もミラーリングしていたのでは?
で、システムファイルって何よ (スコア:0)
だったら設定変更でポカやったってだけだろOracleのせいにすんな
Re:で、システムファイルって何よ (スコア:1)
「同じシステムファイルが壊れてOracleがこけた」だけで、どこにもOracleのせいだとは書かれてないんだけど
Re: (スコア:0)
北海道逃亡説が信ぴょう性を帯びてきたな
Re: (スコア:0)
ならOracleって書く必要ないよね
データベースが故障したとかシステムが故障したでいいと思うけど
Re:で、システムファイルって何よ (スコア:1)
Oracle Databaseを指して「オラクル」って呼ぶノリの延長で「オラクルが壊れた!」って言ってる感じじゃないかと。
#「インターネットが壊れました」に通じるものがあるかも?
Re: (スコア:0)
なぜそこでOracleという情報をあえて落とす方がいいと思えるの?
ま、そう書いたところで
> Oracleのせいにすんな
の発言の恥ずかしさが隠せるわけでもない。
Re: (スコア:0)
いまだにOracleだけで飯を食べてるような人もいるからね
そういう人は必死なんだよ
Re:で、システムファイルって何よ (スコア:1)
> いまだにOracleだけで飯を食べてるような人もいるからね
せめてお箸とかスプーン使おうよ……
Re:で、システムファイルって何よ (スコア:1)
Oracleだけが嫌な人はフォーク使ってるだろ。
Re: (スコア:0)
Oracle=神託で飯食うってんだから宗教関係で金稼いでるって意味ですよ。
そんな直接な行為じゃないって。
Re: (スコア:0)
Re: (スコア:0)
PFILEではなく、SPFILEかと。
PFILEって既に廃止になってるはず…
Re: (スコア:0)
でもEMで変更できないパラメータの場合、PFILEに戻してエディタで修正してSPFILEに戻す、
なんて手順ですよね。
起動しなくなるようなコマンド打ったり、アーカイブ領域の容量不足なんかでも同様ですし。
Re: (スコア:0)
うるせえな。
責任の所在をあいまいにするためにオラクルに高い保守料払ってんだから黙ってろ!
単純に (スコア:0)
バグを踏んだせいでは
ミラーリングで同じ内容に同期していたなら同じデータで引っかかる可能性はある
Re: (スコア:0)
しっかりとした大手に頼んだからシステムにバグなんてありえない
向こうもバグではなく仕様と言っていましたし
Re: (スコア:0)
ボケかマジかわからん
Re: (スコア:0)
つまらんテンプレ皮肉
Re: (スコア:0)
ビットエラーが同時に同一ファイルに起きるとか考えにくいしねぇ……
立派なのは請求額だけ。
なんでこんな会社が未だのうのうとやってんだか……採用する方も採用する方だぞ。
ファイルが破損? (スコア:0)
普通は稼働中にシステムファイルは書き換えない。
破損するとすれば、更新中だったのか?
それとも前回の更新などで今回の稼働前から壊れていて、アクセスした時に問題が浮上したのか?
それともただの設定ファイルなどをシステムファイルと呼んでいて、何か設定を書き換えた時に問題が起こったのか?
色々謎が多い。
Re:ファイルが破損? (スコア:1)
> 普通は稼働中にシステムファイルは書き換えない。
データベースって知ってますか?
Re: (スコア:0)
データベースには全く詳しくないんですが(皮肉とか謙遜とかでなくMySQLをちょっぴりいじったくらい)、データベースってシステムファイルを稼働中に書き換えるのが普通なんですか?
"システムファイル"が何を指すのかによるとは思うんですが。
もう一度言っておきますが、本当に皮肉とか謙遜とかでないです。
Re: (スコア:0)
ウィンドウズだって起動中にレジストリを書き換えるじゃん。
Re: (スコア:0)
mysqlだってmysql(システム)データベースは更新されるだろ。
システムファイルってそれ含むってのが共通認識な。
システムのバックアップ・リストアと言われた場合の対象となってるわけ。
たぶん、お前がシステムファイルと思ってるのはmy.cnfとか設定ファイルだろ。
システムファイルってそれだけじゃない。
当然稼働中に書き換わってゆくわ。
Re: (スコア:0)
であればデータベースの破損となるのが共通認識ですよ。
システム「ファイル」なんて表現する必要がない。
今回の問題の部分がそもそもデータベースであるかも怪しいけど。
Re: (スコア:0)
元記事ちゃんと読みましょう。
https://tech.nikkeibp.co.jp/atcl/nxt/news/18/05216/ [nikkeibp.co.jp]
Re: (スコア:0)
Oracleにはシステムデータベースなんてないんですよ。
代わりにスキーマでシステム領域が作られてる。
Re: (スコア:0)
Oracle用語的には「システムファイル」なんていう書き方はしないので、
これは元記事がわかりにくいけど、元記事はOracleだと断定しているので
Oracle DBを構成するファイルなんだろうなということはわかる。
「両系統で同じシステムファイルが破損していた」とあるので
ノードごとに異なる実体を保持しているファイルで常時更新対象のファイルだとすると
オンラインREDOログ、UNDO表領域が候補。
このうち通常のリストア対象なのはUNDO表領域だけ。
ただ、オンラインREDOログごとリストアしてバックアップ時点に完全に戻すこともできないことは無い。
もしデータ以外(常時更新対象外)の実行ファイルやライブラリファイルが破損しているとすると
OSが原因または運用で壊している可能性はある。
Re: (スコア:0)
システムファイル自体はむしろ構築後だと稼働中に書き換えるでしょ。
それで書き換えたファイルのシステムへの読み込みはサービス再起動時に行うのが一般的なんじゃないの?
会社に依存している内は良いように繰られるだけじゃね (スコア:0)