アカウント名:
パスワード:
メインフレーム上で複数の自治体のシステム動かしてた時代だと、定期的なフルバックアップと日次で差分取って、ハードも本番機と待機系を持ってることが多かったような気がする。今回データが消えちゃったのって、単純にデータのバックアップ取ってなかったんだろうか。環境用意してバックアップ戻してって、出来ない事情があるとか?そもそもバックアップ取ってないとか?バックアップ取ってたけど、同じハード構成でバックアップも同様にデータが消えちゃったとか?
Internet Watchの記事読めば大体察せるだろ富士通とかNTTクラスの金は出せないが実績のある外資はダメでそれでも国産でクラウドって選んだ所が杜撰管理だったんじゃないの
ソフトウェアのトラブルって書いてあるだろ。お前みたいな報告やお知らせをちゃんと読まないやつが事故起こすんだよ。
団栗の背比べ
たとえソフトウェアトラブルでも物理的にも論理的にも別のストレージにバックアップとってれば、通常はバックアップまでは戻るはず
たとえば、日次バックアップはストレージやOSのスナップショット機能で、週次バックアップは、別ストレージへのフルバックアップとか
最近はメインストレージはFlash、バックアップ用ストレージはHDDとかが多いのでは?
結構、そんな知識の無い人たちが片手間に担当してるからねぇ中小業者に丸投げとかもよくある数日分の日次バックアップしかとってなくてしかも全部同じストレージ上にあるとかアホ設定だったりも
>論理的なデータ不整合が発生していたために・・
とあるしHDD上で既にファイルシステムが壊れていたとすれば、壊れたものをバックアップ・リストアしても壊れたものが再現されるだけ。
PCのメモリ化けでコピーしただけのファイルが次々壊れるとかありましたよ私
いつから壊れてたんだよ。よく今まで障害にならなかったな。
大体バックアップなんてものはリストアしてみるまでわかんないんだよ。おれなんか先輩に「これちゃんと戻るんですか?」って聞いたら「さぁ?」って言われたぞ。
普通はテストするだろ!って、もし設定ミスってたら、1ヵ月かけて構築したシステムがパァだぞパァ。責任取れんのか?どうせリストアが必要になる可能性なんて皆無なんだから、ばっちりです!って自信満々で言っとけ。
ってまぁこんな感じで、設定ミスってたパターンだろ。ほんと責任感じますわ。ごめんね。
https://internet.watch.impress.co.jp/docs/news/1224846.html [impress.co.jp]> 夕方にはファームウェアップデートとEMC側エンジニアによるスクリプト処理でLUNのオンライン化を進めた。> 検証環境がなく、重要と思しき情報だけをDellから受け取る体制になっていると回答。>「FCの一般的なコマンドで運用しているので(サーバーベンダーが異なっていても)問題ない」と回答。> OSイメージを含むバックアップが何らかのソフトウェア上のトラブルで一部行われておらず復旧が大幅に遅れている。「監視システムに問題があった」(神尾氏)とのことで、
クラウドというか一日中棚に晒してあるサーバをバイキング形式で食べられるだけみたいな印象だな
> 検証環境がなくバグやトラブルで炎上するとこの定番ですねぇ。鎮火作業で手を付ける場所ではありますね。#言うこと聞かないトコ?サヨナラさ。(その後)ニュースにもなってたりするよn
検証環境がなく
このクラスのストレージは高いから検証機なんて大企業でも用意しないよ。予算に説明がつけられない。結果ベンダまかせになる。
案件ごとには無理だけどサポート部門が検証機持ってるから借りに行ってたぞ。無いやつもベンダーも言えば快く貸してくれる。
この系統の常時稼働可能な検証機って大抵メーカーと代理店(とちゃんとしたプラットフォーマー)以外は持ってないよ。検証機に金かけないところは、メーカー提供の仮想マシンでのシミュレータで機能検証して、構成検証時のみ代理店の一時貸出で提案構成でちゃんと動くか検証、構築時テストはそのまんま本番環境、その後はまたシミュレータ頼みというのが一般的だと思う。
闘わないプログラマのLepton氏を彷彿させる文体
「バックアップに不具合があった」が真っ先に想定される事態じゃね.
「バックアップ処理は完全無欠」って、どこからその根拠のない自信は出てくるんだ。
>すでにストレージ関連の不具合が発生していたことは明らかにされているが、バックアップ機能にも不具合が発生しており、>ストレージのファームウェアに問題があることが判明、記憶装置に不具合がああれば、そりゃなんでもありだろ。
週一とかで定期的にレストアしてテストして、記憶前と全ビットが完全に一致することまで完全比較すれば問題なく復元できることが確認できるけど、往々にしてそうい
「監視システムに問題があった」
(少なくともある時点から)バックアップがとられてなかったってことじゃね?
どんな監視システムなんだろ?テキストファイルにバックアップ対象を列挙しておくとバックアップコマンドが走るとかだったりして。
ストレージがUnityだから、Unisphereを監視システム(のひとつ)と呼んでるんじゃないですかね。データ保護の設定もUnisphereの機能の範疇(しかしバックアップまでは統合してくれないんだなあ)みたいですから、レプリケーションを剥がして固定してからAvamarなりをトリガして、バックアップ取り終わったらレプリケーションをつなぎ直すとかをスクリプトでまとめようとしてちゃんと動かないパターンがあったとかだったりして。
詳細は知らないけど、運用中のデータがストレージの微小な障害で少しずつ壊れていて、それをひたすらバックアップしていたなら、当然バックアップも壊れてるよね。だからバックアップの世代管理って多めに取るのが重要なんだろうな。
分かりにくい壊れ方をし始めて、気づくまでの期間以上に多く世代は残っていないと。
クラウドの場合、仮想環境だからすぐに復旧できるはずだとバックアップ保存期間を短くしているところがあるかもしれない。今回のようにバックアップデータが壊れたり消えたりしている場合、障害発生時にバックアップ取得を停止していないとリストアした後にもバックアップが取得され、正常な古いデータは壊れた新しいデータに上書きされちゃうかもしれない。
半導体やストレージの高密度化で、触ってもいないデータが宇宙線に当たって壊れるということはあり得るので、そのバックアップデータが正しいかって評価する手法とか、どうなんだろ。
詳細は知らないけど、「バックアップについてはソフトウェアのトラブルで一部が適切に行われていなかった」って原因が発表されてるのに、なんでこう次から次へと、オレの考えた最強の原因が出てくるの?わけがわからないよ。発表はただの言い訳で、オレの妄想のほうが正しいはずとか?
より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。
物事のやり方は一つではない -- Perlな人
バックアップは? (スコア:0)
メインフレーム上で複数の自治体のシステム動かしてた時代だと、定期的なフルバックアップと
日次で差分取って、ハードも本番機と待機系を持ってることが多かったような気がする。
今回データが消えちゃったのって、単純にデータのバックアップ取ってなかったんだろうか。
環境用意してバックアップ戻してって、出来ない事情があるとか?
そもそもバックアップ取ってないとか?
バックアップ取ってたけど、同じハード構成でバックアップも同様にデータが消えちゃったとか?
Re: (スコア:0)
Internet Watchの記事読めば大体察せるだろ
富士通とかNTTクラスの金は出せないが実績のある外資はダメで
それでも国産でクラウドって選んだ所が杜撰管理だったんじゃないの
Re: (スコア:0)
ソフトウェアのトラブルって書いてあるだろ。お前みたいな報告やお知らせをちゃんと読まないやつが事故起こすんだよ。
Re: (スコア:0)
団栗の背比べ
Re: (スコア:0)
たとえソフトウェアトラブルでも物理的にも論理的にも別のストレージにバックアップとってれば、
通常はバックアップまでは戻るはず
たとえば、日次バックアップはストレージやOSのスナップショット機能で、
週次バックアップは、別ストレージへのフルバックアップとか
最近はメインストレージはFlash、バックアップ用ストレージはHDDとかが多いのでは?
Re: (スコア:0)
結構、そんな知識の無い人たちが片手間に担当してるからねぇ
中小業者に丸投げとかもよくある
数日分の日次バックアップしかとってなくてしかも全部同じストレージ上にあるとかアホ設定だったりも
Re: (スコア:0)
>論理的なデータ不整合が発生していたために・・
とあるしHDD上で既にファイルシステムが壊れていたとすれば、壊れたものを
バックアップ・リストアしても壊れたものが再現されるだけ。
PCのメモリ化けでコピーしただけのファイルが次々壊れるとかありましたよ私
Re: (スコア:0)
いつから壊れてたんだよ。よく今まで障害にならなかったな。
大体バックアップなんてものはリストアしてみるまでわかんないんだよ。
おれなんか先輩に「これちゃんと戻るんですか?」って聞いたら「さぁ?」って言われたぞ。
普通はテストするだろ!って、もし設定ミスってたら、1ヵ月かけて構築したシステムがパァだぞパァ。
責任取れんのか?
どうせリストアが必要になる可能性なんて皆無なんだから、ばっちりです!って自信満々で言っとけ。
ってまぁこんな感じで、設定ミスってたパターンだろ。ほんと責任感じますわ。ごめんね。
Re: (スコア:0)
https://internet.watch.impress.co.jp/docs/news/1224846.html [impress.co.jp]
> 夕方にはファームウェアップデートとEMC側エンジニアによるスクリプト処理でLUNのオンライン化を進めた。
> 検証環境がなく、重要と思しき情報だけをDellから受け取る体制になっていると回答。
>「FCの一般的なコマンドで運用しているので(サーバーベンダーが異なっていても)問題ない」と回答。
> OSイメージを含むバックアップが何らかのソフトウェア上のトラブルで一部行われておらず復旧が大幅に遅れている。「監視システムに問題があった」(神尾氏)とのことで、
クラウドというか一日中棚に晒してあるサーバをバイキング形式で食べられるだけみたいな印象だな
Re: (スコア:0)
> 検証環境がなく
バグやトラブルで炎上するとこの定番ですねぇ。鎮火作業で手を付ける場所ではありますね。
#言うこと聞かないトコ?サヨナラさ。(その後)ニュースにもなってたりするよn
Re: (スコア:0)
検証環境がなく
このクラスのストレージは高いから検証機なんて大企業でも用意しないよ。
予算に説明がつけられない。
結果ベンダまかせになる。
Re: (スコア:0)
案件ごとには無理だけどサポート部門が検証機持ってるから借りに行ってたぞ。無いやつもベンダーも言えば快く貸してくれる。
Re: (スコア:0)
この系統の常時稼働可能な検証機って大抵メーカーと代理店(とちゃんとしたプラットフォーマー)以外は持ってないよ。
検証機に金かけないところは、メーカー提供の仮想マシンでのシミュレータで機能検証して、
構成検証時のみ代理店の一時貸出で提案構成でちゃんと動くか検証、構築時テストはそのまんま本番環境、
その後はまたシミュレータ頼みというのが一般的だと思う。
Re: (スコア:0)
闘わないプログラマのLepton氏を彷彿させる文体
Re: (スコア:0)
「バックアップに不具合があった」が真っ先に想定される事態じゃね.
「バックアップ処理は完全無欠」って、どこからその根拠のない自信は出てくるんだ。
>すでにストレージ関連の不具合が発生していたことは明らかにされているが、バックアップ機能にも不具合が発生しており、
>ストレージのファームウェアに問題があることが判明、
記憶装置に不具合がああれば、そりゃなんでもありだろ。
週一とかで定期的にレストアしてテストして、記憶前と全ビットが完全に一致すること
まで完全比較すれば問題なく復元できることが確認できるけど、往々にしてそうい
Re: (スコア:0)
(少なくともある時点から)バックアップがとられてなかったってことじゃね?
どんな監視システムなんだろ?
テキストファイルにバックアップ対象を列挙しておくとバックアップコマンドが走るとかだったりして。
Re:バックアップは? (スコア:3)
ストレージがUnityだから、Unisphereを監視システム(のひとつ)と呼んでるんじゃないですかね。
データ保護の設定もUnisphereの機能の範疇(しかしバックアップまでは統合してくれないんだなあ)みたいですから、レプリケーションを剥がして固定してからAvamarなりをトリガして、バックアップ取り終わったらレプリケーションをつなぎ直すとかをスクリプトでまとめようとしてちゃんと動かないパターンがあったとかだったりして。
Re: (スコア:0)
詳細は知らないけど、運用中のデータがストレージの微小な障害で少しずつ壊れていて、それをひたすらバックアップしていたなら、当然バックアップも壊れてるよね。
だからバックアップの世代管理って多めに取るのが重要なんだろうな。
分かりにくい壊れ方をし始めて、気づくまでの期間以上に多く世代は残っていないと。
クラウドの場合、仮想環境だからすぐに復旧できるはずだとバックアップ保存期間を短くしているところがあるかもしれない。
今回のようにバックアップデータが壊れたり消えたりしている場合、障害発生時にバックアップ取得を停止していないとリストアした後にもバックアップが取得され、正常な古いデータは壊れた新しいデータに上書きされちゃうかもしれない。
半導体やストレージの高密度化で、触ってもいないデータが宇宙線に当たって壊れるということはあり得るので、そのバックアップデータが正しいかって評価する手法とか、どうなんだろ。
Re: (スコア:0)
詳細は知らないけど、「バックアップについてはソフトウェアのトラブルで一部が適切に行われていなかった」って原因が発表されてるのに、
なんでこう次から次へと、オレの考えた最強の原因が出てくるの?わけがわからないよ。
発表はただの言い訳で、オレの妄想のほうが正しいはずとか?