アカウント名:
パスワード:
名前は書かないけど日本の某社(さくらやGMOではない)は小規模なサービス障害を隠蔽し障害が発生したとユーザがネットに書いたら事実に反するから消せと脅すし各種フォーラムサイトで自作自演擁護をして不都合な情報を隠そうとするからねそれに比べてきちんと障害報告をして、批判的意見も弾圧しないというのは評価できる
前回やらかしたのは5年以上前のことだし、逆にいえば大規模なサービス障害は5年に1度ぐらいしか起きていない普段はなんの問題も無く動いているサービスなので過度に心配する必要はないと思うそもそも低価格帯のサービスなのでミッションクリティカルな用途には使うべきじゃないし、そういうミッションクリティカルな用途に使うサービスにはファーストサーバの数十倍の金額が必要
いやいやいや、そんなミッションクリティカルな分野じゃなくて、単にビンボな企業のメールサーバとWebサーバとしてホスティングしていただけですよ。だから、数時間程度のダウン時間は、元から許容範囲ですが、一週間以上不安定な運用の挙句、3日間の完全なサービスの停止は、さすがにカンベンしてということかと。
ここですが、元は自前でサーバ持って、拙いながら運用していたのですが、運用環境をYahooに投げて、半年ほど前に、全ユーザに対し、ほぼ強制的に、新しいIaaSに移行を強制したんですね。前の管理画面のCGIの拙さは、一見して「わー、今時コレか」というレベルのもので、時代を十年ほど遡るぐらいほのぼのとした感覚に襲われたものでした。
で、その新しい環境ですが、もちろん想像でしかないんですけど、おそらく安いPCベースのH/Wに、KVMとCephで、分散環境を作って、「オレって、安い環境でも、最新の仮想+分散環境構築しちゃって凄くね?」とか思っていたかどうかはわかりませんが、高負荷時のCephの制御ができず、何度も失敗を繰り返した挙句、3日間の完全停止までいっちゃったということじゃないかと思っているのですが、ホントのことはわかりません。
アナウンスでは、再起動を繰り返したとかあるのですが、あれは、ホントに、Linuxカーネルが高負荷で、再起動を繰り返したんじゃないのかしらん。単にNFSでも高負荷にすると、load値が、10とか20とかいっちゃって、「エネルギー充填2000%とぉー」とか無邪気に言ってたのは、私ですが、あの状態を越えると、カーネルレベルで落ちるような気がします。
一定規模のファイルシステムの安定運用はある程度の技術力が必要で、お高いディスクアレイを導入できる場合は、障害時には、メーカに投げればよいのですが、安いPCベースのハードウェアで、Cephだと、誰も助けてくれないなんてハメにおちいっていたのでは、なんて思っているのですが、どうなんでしょうね?
より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。
目玉の数さえ十分あれば、どんなバグも深刻ではない -- Eric Raymond
ファーストサーバは批判隠ぺい工作をやらないだけまし (スコア:0)
名前は書かないけど日本の某社(さくらやGMOではない)は小規模なサービス障害を隠蔽し
障害が発生したとユーザがネットに書いたら事実に反するから消せと脅すし
各種フォーラムサイトで自作自演擁護をして不都合な情報を隠そうとするからね
それに比べてきちんと障害報告をして、批判的意見も弾圧しないというのは評価できる
前回やらかしたのは5年以上前のことだし、逆にいえば大規模なサービス障害は5年に1度ぐらいしか起きていない
普段はなんの問題も無く動いているサービスなので過度に心配する必要はないと思う
そもそも低価格帯のサービスなのでミッションクリティカルな用途には使うべきじゃないし、
そういうミッションクリティカルな用途に使うサービスにはファーストサーバの数十倍の金額が必要
Re:ファーストサーバは批判隠ぺい工作をやらないだけまし (スコア:0)
いやいやいや、そんなミッションクリティカルな分野じゃなくて、単にビンボな企業のメールサーバとWebサーバとしてホスティングしていただけですよ。
だから、数時間程度のダウン時間は、元から許容範囲ですが、一週間以上不安定な運用の挙句、3日間の完全なサービスの停止は、さすがにカンベンしてということかと。
ここですが、元は自前でサーバ持って、拙いながら運用していたのですが、運用環境をYahooに投げて、半年ほど前に、全ユーザに対し、ほぼ強制的に、新しいIaaSに移行を強制したんですね。
前の管理画面のCGIの拙さは、一見して「わー、今時コレか」というレベルのもので、時代を十年ほど遡るぐらいほのぼのとした感覚に襲われたものでした。
で、その新しい環境ですが、もちろん想像でしかないんですけど、おそらく安いPCベースのH/Wに、KVMとCephで、分散環境を作って、「オレって、安い環境でも、最新の仮想+分散環境構築しちゃって凄くね?」とか思っていたかどうかはわかりませんが、高負荷時のCephの制御ができず、何度も失敗を繰り返した挙句、3日間の完全停止までいっちゃったということじゃないかと思っているのですが、ホントのことはわかりません。
アナウンスでは、再起動を繰り返したとかあるのですが、あれは、ホントに、Linuxカーネルが高負荷で、再起動を繰り返したんじゃないのかしらん。単にNFSでも高負荷にすると、load値が、10とか20とかいっちゃって、「エネルギー充填2000%とぉー」とか無邪気に言ってたのは、私ですが、あの状態を越えると、カーネルレベルで落ちるような気がします。
一定規模のファイルシステムの安定運用はある程度の技術力が必要で、お高いディスクアレイを導入できる場合は、障害時には、メーカに投げればよいのですが、安いPCベースのハードウェアで、Cephだと、誰も助けてくれないなんてハメにおちいっていたのでは、なんて思っているのですが、どうなんでしょうね?