![ビジネス ビジネス](https://srad.jp/static/topics/business_64.png)
障害が続いていたファーストサーバのホスティングサービス「Zenlogic」、復旧 62
ストーリー by hylom
原因はなんですかね 部門より
原因はなんですかね 部門より
あるAnonymous Coward曰く、
ファーストサーバのホスティングサービス「Zenlogic」が6月19日より断続的に障害を起こしていたが(過去記事)、同社がこの対応として7月6日より行っていたメンテナンス作業が完了した(同社のメンテナンス情報ページ)。
Zenlogicでは「7月6日20時00分 ~ 最長7月9日08時00分」の予定で全サービスを停止し、メンテナンスをしていたが、予定通りに復旧できず、メンテナンス終了時刻は無常にも「未定」に変更された。その後、7月10日11時付けでメンテナンスの作業完了が報告されている。現時点では稼動状態は安定しているという。ただ、一部の顧客では未だサービスが利用できない状況が続いているという。
今回の障害では、Zenlogicを使っていると噂されるエレコムでドライバのダウンロードなどにも影響が出ていた模様だ(参考:その他のホスティング事例、エレコム公式ツイッター)。
なお、ZenlogicはバックエンドとしてOpenStackベースのクラウド基盤を採用しているという(日経新聞)。
社員の技術力は大丈夫か (スコア:5, 参考になる)
こんな文章がWebにある.
https://nakoruru.jp/?p=1752 [nakoruru.jp]
反論を根拠をもって堂々と行えるよう,マニュアル化などの制度を整えるべきでは
Re:社員の技術力は大丈夫か (スコア:2, 参考になる)
書いた本人です
ここからもやたらアクセスがあって自鯖が悲鳴あげそうになりました(Zenlogicを笑えない)
2年前の記事なんで現在との齟齬はご容赦願いたい。一部にレスりますね
>クソシステムは同意だけどこの人共用サービスとVPSの区別付いてるのかな?
勿論。VPSも共用もレンタルサーバ系は90年台から使っていますから当然知っています。
ZenlogicはVPS、資料から察するにKVMだと思われます。
ストレージ云々で障害なので単純に考えれば別ストレージを用意してライブマイグレーションで移動させれば
停止する必要はなかったでしょう。それができないという時点で問題のレイヤーはもっと上だと思います。
>これみて1GBで足りないと判断する人はメモリ増設したコースを買うべきじゃないかなあ
契約後に調べて初めて判る事なので、まさか1GBコースでswap落ちしているサーバだとは夢にも思いませんよ
SWAP領域が無いIDCFクラウドの500円ですら初期は落ちていません。
>たとえば dhclient が動作しているのをあり得ないと考えておられる点ですが、
>実際には VPS やクラウドで固定 IP アドレスを渡す場合にも DHCP を使っている事例が複数あります。
>AWSもAzureもDHCPなんですが。
AWSは今調べてみましたけど、起動したmicroですらdhclientはプロセス的に動作していませんね。
IDCFクラウドは起動していました。
あと仮想サーバへ割付する際にDHCPを利用するのはいいんですよ、別に。
それを仮想サーバ構築時にIPアドレス設定へスクリプトで書き込んで起動して欲しい。
VPS側でdhclientが起動している必要性は無いと思います。
dhclient云々はともかくDr.Webにしろ初期設計が狂っていると、私は思います。
だって2年前からアクセス1日10件程度のメールサーバでロードアベレージが30超えとか無いですよ。
>自社サーバーの経験はお持ちでも、VPS やクラウドの利用経験、
>それも複数プロバイダーに関する経験は少ないように思われます。
東京の大半のデータセンターでラック構築しています。
また海外からクラウドサービスを試験してくれと言われて記事も書いていますし、
AWSもIDCFクラウドもZenlogicもさくらクラウドも利用しています。
ネットワークエンジニア兼サーバー構築業で20年程業界にいる場末技術者ですよ(笑)
今は専らvmware系が増えたので現地に赴く機会も減りましたが、それでも10ラック程
OSにして1000台程度は面倒見ています。
>マネージドサーバなら認証のないDHCPはフェイルセーフの観点から使うべきではない
私もそう思います。root持てると如何様にも弄れますし性善説でシステムを組むのはどうかと
今回の場合はVPSなのでdhclientもありかとは思いましたが、このレベルで設計されたシステムなら
脆弱性ついてroot取れる可能性もあるかも知れません
となると全体を危険に晒すのでdhclientの動作は怖いと思いますね
Re: (スコア:0)
> AWSは今調べてみましたけど、起動したmicroですらdhclientはプロセス的に動作していませんね。
とりあえず全部デフォルトでec2のm5とWordPressのlightsailをひとつ用意してみたけど...
[ec2-user@ip-172-31-25-230 ~]$ ps -eo etime,args | grep dhclient
11:25 /sbin/dhclient -q -lf /var/lib/dhclient/dhclient-eth0.leases -pf /var/run/dhclient-eth0.pid eth0
Re: (スコア:0)
反論できたり、まともなマニュアル化できるレベルの「常識(技術にすら達してないレベルで)」持ってりゃ
今回や前回みたいな大規模傷害おこさないんじゃないかなw
Re: (スコア:0)
クソシステムは同意だけどこの人共用サービスとVPSの区別付いてるのかな?
VPSだよ root権限無いけどね (スコア:0)
> クソシステムは同意だけどこの人共用サービスとVPSの区別付いてるのかな?
いえ、VPSであってますよ
root権限がなく、ブラウザからコントロールパネルで管理できてサーバの知識がいらず運用できるように予め設定されているVPSです
「1vCPU+1GBに300GBストレージ」というのはユーザに割り当てられた仮想的なもので、物理サーバ自体にはおそらく少なくとも64GB以上のメモリが刺さっているはずです。
メモリなどの資源がユーザごとに分離されているので、一般の共有レンタルサーバとは違います
Re: (スコア:0)
CPUとメモリとディスク容量は気にするけど、
NWとIOPSは気にしないとか言う新人の性能見積り見たいな設計してたら笑える
# rsync同時多発?
Re: (スコア:0)
sshが提供されていないってことはweb/mailのみ提供するようなものなんだろうという推測の下でpsみたけど、これ不要なプロセスってある? dhclientにしても即座に不要とは断言できないな、私の技術力だと
これを1GBメモリで売るのはなあ、というのはある。けどそれにしたって、とにかく遅くても動きさえすればいいから安くしてくれ、という需要はあるわけで、これみて1GBで足りないと判断する人はメモリ増設したコースを買うべきじゃないかなあ
Re: (スコア:0)
自分だけが遅いなら全く持って動きゃいいで良いけど、仮想基盤みたいにリソースシェアする環境でそもそもからしてスワップアウトが発生してるのはあかん
# 基盤側で嫌がらせ見たいな性能上限かけてりゃ別
Re: (スコア:0)
これ、スワップ先のストレージが件の障害起こしてる分散ストレージなん…?
常時スワップアクセスが分散ストレージにゴリゴリゴリ負荷を掛けてる中、
rsyncでストレージを舐め回しまくってるって理解でOKなんだろうかコレ。
BDとか動かしてるとどれだけ莫大なストレージアクセスが発生するのだろう。
それが顧客数分並ぶとするならそら絶望的ですわな。
もしそうならパラメータ調節とかそういうレベルでどうにかなる問題なのか…?
Re: (スコア:0)
Re: (スコア:0)
うーん、この方も微妙に思えます。
たとえば dhclient が動作しているのをあり得ないと考えておられる点ですが、実際には VPS やクラウドで固定 IP アドレスを渡す場合にも DHCP を使っている事例が複数あります。
国内では ConoHa や IDCF クラウド等が該当しますね。
自社サーバーの経験はお持ちでも、VPS やクラウドの利用経験、それも複数プロバイダーに関する経験は少ないように思われます。
まあ、Dr.Web だけで 1GB を使い切っている状況は、さすがにどうかと思いますが。笑
マネージドサーバでDHCPは好ましくない (スコア:0)
素人は黙ってればいいのに
> 国内では ConoHa や IDCF クラウド等が該当しますね。
それはユーザがroot権限を持つサービスでしょ
ユーザが自由なOSをisoイメージ等からインストールできるので、標準外のOSを使ってもIPアドレスが自動割当できるようにDHCPを使う必要がある
しかしマネージドサーバならばroot権限はサービス提供側にあるので、認証の無い危険なDHCPを使う必要はない
分かりやすくたとえ話をするならば、一般顧客をターゲットにしたレンタルサーバならばユーザが使いやすいように ftpd を動かす必要があるけど、プロが管理するサーバなら sshd だけあれば良い
それと同じでマネージドサーバなら認証のないDHCPはフェイルセーフの観点から使うべきではない
Re: (スコア:0)
関係無いと思う。OpenStackでは正規のサーバ以外はDHCPサーバになれないようにインスタンスの外側にファイアウォールが付いてるから。
Re: (スコア:0)
ファイアウォールが付いていれば直ちにセキュリティ上の問題は生じないけど
仮に何らかの方法で偽DHCPサーバが同一ネットワーク内に構築されてしまった場合に問題が生じてしまう
だから「フェイルセーフの観点から」って言ってるのよ
どちらかというとセンスや美学の問題かもしれないけど、
・外部から接続できないようにファイアウォール入れてるからSSHじゃなくてtelnetでログインするしファイル転送はftpでやってる
・同じくファイアウォール入れてtelnetポートには外部から接続できなくしているから rootのパスワードはシンプルに "password" にしている
・ファイアウォールが入ってるから使いもしない無駄なサービスがportをlistenしてても問題ないと考える
メモリ使用量なんて僅かだしファイアウォールが接続ブロックしてくれるからセキュリティ上もダイジョブなはず
みたいなサーバ管理者って嫌じゃない?
Re: (スコア:0)
それが富豪的システム管理というやつです。気持ちはわかるけど、そんなことを気にするほうがコストパフォーマンスは落ちる。真か偽のフラグに64ビット使うのは勿体無いなんてもう言わないでしょ。
Re: (スコア:0)
> 富豪的システム管理
そしてメモリ破産してスワップアウトで即死、と。
スワップアウトしてる時点で富豪的システム管理が許されるような状況じゃないのは明らかでしょう。
富豪的システム管理を要件とするなら、メモリ1GBなんてメニューを用意すること自体が間違ってる。
Re: (スコア:0)
AWSもAzureもDHCPなんですが。
ただ、一部の顧客では未だサービスが利用できない状況が続いているという。 (スコア:1)
>同社がこの対応として7月6日より行っていたメンテナンス作業が完了した(同社のメンテナンス情報ページ)。
いやいや、利用できない状況があるなら 完了しちゃだめっしょ
最近の企業はこんなかんじかのぉ~
おしりからミミズだすぞ!
Re: (スコア:0)
障害・メンテナンス情報では全サービス停止の延長がなかったことにされて、
2018年07月11日(水) 08時56分から一部のユーザーに別の障害が発生していることになっていますね。
Yahooのクラウド基盤の問題では? (スコア:1)
FirstServerっていまはインフラが自前ではなく、「Zenlogicホスティング」はYahooのクラウド基盤、「Zenlogicホスティング Powered by AWS」は名前の通りAWSがバックエンドです。 (http://gihyo.jp/news/nr/2015/02/0501)
今回、AWSの方では問題が発生していないところを見ると、OpenStackベースだというYahooのクラウド基盤に問題があったのではないかなあ。
いつの間にかFirstServer社はソフトバンク傘下に入ってしまい、グループ企業でもあるYahooのクラウド基盤を使わざるを得ない面もあったのかなと邪推。。。
ま、FirstServerの肩を持つわけじゃないけど、所詮今となっては再販業者みたいなもんなのではないかと。。。
ええと、間違っていたらごめんなさい (スコア:0)
ヤフーのクラウド基盤はIaaSだったと思います。なのでOSはファーストサーバーの管理下にあると思います。
この記事の指摘はOSの設定に対するものなので、今回の障害の原因がどちらにあるのかは私もわからないですが、指摘がファーストサーバーに向いているのは正解だと思います。
試しにAWSにRed HatのEC2を立てて、何も設定をせずにpsを叩いてみました。77個のプロセスが走っていました。
この記事を信じれば、Zenlogicでは158個のプロセスが走っているので、倍以上です。勿論、私は何も設定しなかったので、必要なサービスも上がっていません(Webやメールのサーバなど)。でも、不要なサービスもあってそれはとめるべきなので、倍になるかはちょっと疑問です。
あ、間違ってた…ごめんなさい (スコア:0)
そもそもツリー違いのとこにコメントしちゃいました。
大変失礼しました。
復旧したけど直してはいないんだ (スコア:0)
客が逃げ出したからしばらくは落ち着くいているようにみえるけどね
Re: (スコア:0)
このタレコミ後の、今日(7/10)15時の報告によると基盤としては直したっぽいね
ただ、高負荷時の影響でサービス(インスタンス?)が逝かれたままのヤツはまだ居るとも書いてある
禿なことだけある (スコア:0)
傘下だからってソフトバンク品質に合わせなくてもいいのよ?
6年前のやらかしがあった後も残っていた客 (スコア:0)
その理由が知りたい。
Re: (スコア:0)
そりゃ安いからだろ。
ギャーギャー言ってる客も、どーせ2、3日止まったぐらいじゃ大した影響もない客ばっかじゃないの。
でなきゃあんな安物でホスティングなんかしないだろ。
Re: (スコア:0)
その同じ口で、たった数時間止まっただけで「やっぱりGoogleは業務に使えない(キリッ」とか言ってる不思議。まあGoogle叩ければなんでもいいんだろうな。
Re: (スコア:0)
世の中のほとんど(99.999999%くらい)のサービスの非機能品質なんてGoogle以下なのにねぇ...
Re: (スコア:0)
グーグルやアマゾンの機械的なBANは被害にあってみないとその理不尽さがわからない
Re: (スコア:0)
無能的なBANのせつなさはハンパ無いのでは?
Re: (スコア:0)
品質なんかどうでもいいんだよ。ビジネスには一緒にいて楽しい安心感が大事。
Re: (スコア:0)
今日も信者様の信仰心はゆるぎないなあ。ほんと宗教だよなGoogleって。
Re: (スコア:0)
エレコムの配布server用途って使い方はアリかもしれない。
流石にクラッキング対策は素人よりは優れてるだろうしさ
Re: (スコア:0)
日本人ってそんなもんなんじゃ無いかな。
昨今の政府・国会の様子と世論調査結果の具合を見てるとそう思う。
劣悪な環境に自分が置かれても死ぬまで逃げ出さない潔さが日本の国民性といえる。
Re: (スコア:0)
地球から逃げ出した人間が1人も居ない時点で日本人関係ないわ
Re: (スコア:0)
地球より住みやすい良いところがみつかりましたか。
それはどこですか?
逃げ出す技術的手段も完成しましたか。
ここでは「今自分が置かれた環境が悪くなり、他に良い環境があるにも関わらず逃げ出さない理由」についての話です。
ついてこれないなら黙ってること。
Cephか (スコア:0)
キャッシュが詰まったのか、バランシングに失敗してオンメンテでは何ともならなくなったのか
Re: (スコア:0)
これもっと詳しい情報欲しいよね。
分散ストレージに偏りが出たってことだし、複雑なアルゴリズムに問題があったのか?
モニター側に問題があったのかなど
まぁ個人的には、複雑なソフトをベースにするとトラブったときの対応が難しくなる事例がまた増えたってことかな
Re: (スコア:0)
VPSの参加者の多くがマイニングを始めてしまったとか?
Re: (スコア:0)
マイニングはストレージに負荷かけないと思うけど
Re: (スコア:0)
頭の中でマイニングをマイグレーションと自動変換して認識してたので、違和感なしに納得して読んでた。
てっきりエクソダスが始まったから過負荷に拍車をかけたって話をしているのかと思った。
Re: (スコア:0)
状況も環境もわからない部外者からみた原因の想像。
妄想なので多分ハズレ。
分散ストレージCephを使って巨大ストレージを構成し、多数の仮想環境が共有する形でクラウドを構築。
いまどきの仮想サーバではよくある「動的メモリ」割り当てをして大量のユーザーを突っ込む。
仮想マシンのテンプレートを適当に作り、それをユーザにコピーして使い回し。
適当に作ったので余計なプロセスは生きたままだったり、メモリ使用量が多いプロセスも全体的に多数起動。
動的メモリ割り当てだったため、多数の仮想マシンのメモリ使用量が一斉
ファーストサーバは批判隠ぺい工作をやらないだけまし (スコア:0)
名前は書かないけど日本の某社(さくらやGMOではない)は小規模なサービス障害を隠蔽し
障害が発生したとユーザがネットに書いたら事実に反するから消せと脅すし
各種フォーラムサイトで自作自演擁護をして不都合な情報を隠そうとするからね
それに比べてきちんと障害報告をして、批判的意見も弾圧しないというのは評価できる
前回やらかしたのは5年以上前のことだし、逆にいえば大規模なサービス障害は5年に1度ぐらいしか起きていない
普段はなんの問題も無く動いているサービスなので過度に心配する必要はないと思う
そもそも低価格帯のサービスなのでミッションクリティカルな用途には使うべきじゃないし、
そういうミッションクリティカルな用途に使うサービスにはファーストサーバの数十倍の金額が必要
Re: (スコア:0)
いやいやいや、そんなミッションクリティカルな分野じゃなくて、単にビンボな企業のメールサーバとWebサーバとしてホスティングしていただけですよ。
だから、数時間程度のダウン時間は、元から許容範囲ですが、一週間以上不安定な運用の挙句、3日間の完全なサービスの停止は、さすがにカンベンしてということかと。
ここですが、元は自前でサーバ持って、拙いながら運用していたのですが、運用環境をYahooに投げて、半年ほど前に、全ユーザに対し、ほぼ強制的に、新しいIaaSに移行を強制したんですね。
前の管理画面のCGIの拙さは、一見して「わー、今時コレか
Re: (スコア:0)
ファーストはともかく、前回も今回もYahoo!ニュースにも載っていないし、報道されている媒体も限られてる
Re: (スコア:0)
ロリポップやエックスサーバーみたいなあるIPアドレスのドメインサイト全部ハッキングされて、Zone-H.orgに晒しあげされるほうがマシ(サービスは継続されるから)
zenlogic 6月の稼働率出せないってよ (スコア:0)
> なお、「稼働率」および「停止時間」については、正常に算出できないため、非表示としております。
> 何卒ご了承ください。
算出基準がICMPの応答らしいから出せないことはないんじゃないかな?
ストレージ障害ならもしかしてICMPは動いてて稼働率100%だったとか・・・
Re:zenlogic 6月の稼働率出せないってよ (スコア:2)
> なお、「稼働率」および「停止時間」については、正常に算出できないため、非表示としております。
MTTRが算出できない→稼働率が計算できない→SLAを満たしているか判断できない
*なんか*やだ。
企業の規模にもよりますが、SLAを満たしているか検証できないサービスは使いたくないですねぇ…。
個人ではさくらを利用していますが(そういえばSLAまでは確認していなかった)、数日ダウン程度ならまあ許容範囲。
// 月額500円ちょっとなら、そんなもんだろうと納得できる。
実績稼働率99.99%を謳っているので、私の利用用途からすれば十分すぎるくらいですが。
死して屍 拾う者なし