パスワードを忘れた? アカウント作成
1285087 story
バグ

さくらのクラウドでトラブル発生、一部ユーザーのデータ消失も発生 41

ストーリー by hylom
うーん 部門より
あるAnonymous Coward 曰く、

昨年11月にサービスを開始したクラウドサービス「さくらのクラウド」において、12月から複数のトラブルが発生しているようだ。 まず1つめは、ストレージネットワーク障害。12月9日よりホストサーバーとストレージシステム間で通信障害が発生するパターンがあり、それによりサーバーにアクセスできなくなったり、ディスクへのI/Oに失敗するという問題が発生していたとのこと。これは12月25日に対策を完了しているという。

そしてもう1つは、ディスク障害によるデータ削除。これは上記のストレージネットワーク障害とは異なるもので、「ストレージの負荷が高まる問題を改善する過程で不要データを削除するプログラムに問題があり、誤ってデータを削除してしまった」ということらしい。このトラブルに巻き込まれたのは53アカウントとのことで、こちらについては実際にデータが削除されてしまったユーザーがまとめている。また、Twitterでも同様のトラブルに巻き込まれたユーザーらによる報告Tweetが投稿されている。

この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
  • by Anonymous Coward on 2012年01月11日 6時28分 (#2078773)

    Ubuntuの日本語チーム [ubuntulinux.jp]とかが影響を受けているようですね。

    • by Anonymous Coward on 2012年01月11日 11時42分 (#2078921)

      1. 当該ホストが止まっているのは海外のとあるVPSがsuspend措置をかけてきたためです。
      2. 引っ越し先がさくらなのは真実ですが、今回のデータ損失問題とはまったく関係ありません。

      親コメント
    • by Anonymous Coward

      とんでもなくオフトピだけど
      HTTPなのに「WindowsXPでは正常にアクセスできないかも」って
      どうやったらそんな状態になるんだろ?
      UAを見て、XPだけに特殊なリソースを返すとか?

      • by Anonymous Coward on 2012年01月11日 9時22分 (#2078816)

        Windows XPのIEはServer Name Indicationをサポートしていないからでしょう。Windows XP上ではIEのバージョンにかかわらず未対応です。FirefoxやChromeはSSL通信でOSのライブラリを使用しないので、Windows XP上でも問題ありません。
        Ubuntu Forumはバーチャルホスト上でSSLを使っているので、Server Name Indicationに対応していないブラウザだと正常にアクセスできません。対策としてはSSLのホスト毎にIPアドレスを振るのが一般的でしたが、IPv4アドレスが枯渇して久しいので今後はどんどん難しくなってくると思います。

        親コメント
        • Windows XP上ではIEのバージョンにかかわらず未対応です。FirefoxやChromeはSSL通信でOSのライブラリを使用しないので、Windows XP上でも問題ありません。

          FirefoxとOperaはXPでもSNIがいけますが、Chromeの通信部はOSの物に乗ってるだけなのでXP上ではSNI非対応 [srad.jp]だったはずです。

          #ちょっと手元に確認できる環境はないのですが、もしかして最新版では改善されてるんでしょうか?
          #少なくとも最新のChromeでもプロキシ設定でIEのインターネットオプションダイアログが出てくるのは相変わらずっぽいですが…

          親コメント
          • by Anonymous Coward on 2012年01月11日 11時02分 (#2078890)

            > FirefoxとOperaはXPでもSNIがいけますが、Chromeの通信部はOSの物に乗ってるだけなのでXP上ではSNI非対応だったはずです。
            Chromeはその後、SSL通信に関してNSSを使うように修正されています。
            > #少なくとも最新のChromeでもプロキシ設定でIEのインターネットオプションダイアログが出てくるのは相変わらずっぽいですが…
            プロキシ設定だけをWinInetから取得しており、実際の通信はOSに依存しないように修正されたということです。
            # Webブラウザに関する情報は油断してるとあっという間に古くて役立たずになりますね。

            親コメント
            • by Anonymous Coward on 2012年01月11日 11時10分 (#2078897)

              実際にWindows XP上で、FirefoxとChromeではCN=forum.ubuntulinux.jpの証明書を取得して正常にアクセスでき、IE8では証明書の検証でエラーになる(SNIに対応していないとデフォルトのバーチャルホストであるCN=www.ubuntulinux.jpの証明書を取得してしまうため)ことを確認しました。
              「続行」を押せばいちおうアクセスできますが、「証明書のエラーは無視してください」ではなく「正常にアクセスできないことがあります」とちゃんと言っているのは素晴らしいですね。

              親コメント
      • by Anonymous Coward

        XPだと新しいブラウザがつかえないってことではない?

      • by Anonymous Coward

        IP v6関係じゃねぇの?

      • by Anonymous Coward

        名前ベースのバーチャルホストとかなんじゃない?

  • 前者のバグでスループットが出てなかった云々はちゃんとさくらが公式に情報公開してるところ、後者の間違って消しましたてへぺろ☆話は公式に一切出てきてないんですよね。
    まあこの消えた云々が事実ならという前提ですが、こういう体質の会社なんだなーと思うことにしましょう。
    #クラウドウォッチとかでも話が出て来るかなーと思ってたけど一切なし。むー
    #公式アナウンスが出てからタレこもうと思ってたんですが

  • by Anonymous Coward on 2012年01月11日 9時08分 (#2078808)

    報告より

    不要データの増加はストレージのパフォーマンスに影響を与えるため、
      ただちに対処必要と判断し、削除ルーチンを変更し対処を行いました。
    この対処過程でご利用中のお客様ディスクデータを誤って選択し削除してしまうバグが生じました。

    パフォーマンスの重要度と、顧客データの喪失リスクがある削除ルーチンの重要度を比較して、
    パフォーマンス対策が「ただちに対処必要」っていう判断。
    この「ただちに」というのは、十分なテストを行わなかったいいわけなんだよね。
    なぜなら、対策部分で下記のように書いています。

    現在、削除処理を行うプログラムについて、誤ってデータを削除することがないよう、バグを完全に修正する作業を実施しました。

    これが可能だと、報告書に書いているわけで、可能な措置をしなかったと・・・・。

    それだけパフォーマンスが悪化していてビジネス上問題があるレベルだったんだろうけど、それをデータ損失のいいわけにしていいの?

    「お客様ディスクデータを誤って選択し削除してしまうバグ」
    これ、バグといえばやむを得ないものというニュアンスで書いたんだろうけど、オペミスの可能性もあるよね。
    10年以上やってきて上場もしてるインフラ屋がディスクを削除してしまうようなプログラムをテストなしでぶっこむわけないんで。
    それなりに技術のある相手に出す報告です。もっと正直に書けばいいのにと思うわ。

    • by Anonymous Coward

      >10年以上やってきて上場もしてるインフラ屋がディスクを削除してしまうようなプログラムをテストなしでぶっこむわけないんで
      これを本気で信じているとしたら貴方は幸せな人生を歩んできたんだね。
      きっとその偏りが私の所にきたのだろう。私の周囲では、10年以上やってて上場もしている会社が
      テストもせずにプログラムをぶっこみ洒落にならない障害を起こすなんて日常茶飯事だったよ。

      その私からすると、「あー年末年始泊まりこみの疲労がピークに来てたので脳内テストもまともにできない状態でぶっこんだんだろうなあ」
      というのが文面から受信されました。

      • by Anonymous Coward on 2012年01月11日 9時57分 (#2078832)

        私のエスパーによるとw

        サービスインした翌日の12月にディスク障害を起こしてパフォーマンス低下してたから、
        現場作業員を動員して手動で目視確認でゴミ掃除をさせてたんじゃないかな。
        その作業員が、ちょっとスクリプト書いて手抜きしようとか思って実行したら、ギュンギュンデータが消えてったとかそういう情景が目に浮かぶわ。

        どこぞの原発でのバケツ臨界と同じ構図

        親コメント
        • by Anonymous Coward

          どこぞの原発でのバケツ臨界と同じ構図

          あれは核燃料を濃縮する施設で原発ではないような…
          エスパーから見ればみんな同じなのかもしれないけど

          • by Anonymous Coward

            あ、ホントだ。指摘 thanks

            --
            エスパー

      • by Anonymous Coward

        現地技術者っているんですかね?
        地元雇用も取らないで東京と石狩を頻繁に行き来している姿がさくら関連ツイッターで読み取れますけど。

        ※そういうことをツイッターに書くのもどうかと思う・・・。

        • by hylom (27448) on 2012年01月11日 12時15分 (#2078938) ホームページ 日記

          前の発表会で聞いた話によると、石狩には10数名のスタッフがいるそうで。北海道での雇用もしているそうです。

          親コメント
        • by Anonymous Coward

          > 地元雇用も取らないで東京と石狩を頻繁に行き来している姿がさくら関連ツイッターで読み取れますけど。

          「東京と石狩を頻繁に行き来している人がいる」からどうやったら「地元雇用も取らない」が導けるんだろう。

      • by Anonymous Coward

        10年以上やってきて上場もしてるインフラ屋がディスクを削除してしまうようなプログラムをテストなしでぶっこむわけないんで

        日常茶飯事ではありませんが、そういうケースはありますよ。
        単純に大型案件では、それなりに試験もしているのですが、中小案件で短納期や低コスト案件だったりすると、発生してたりします。表に出ないのが幸いですけどね。

        特に最近若い世代に体制が移行してきているので、ポカミスが多くなってる気がします。

        オープン化しても、レガシー時代のノウハウは必要だと思うんだよね。

      • by Anonymous Coward

        私の所では10年以上やってきてるすっごい大きな会社が
        10年前の手法でまだがんばってます

        # ついこないだバージョン管理ソフトにCVSを使うことが決まったぜ!

        • by Anonymous Coward
          それ何進数?
          # 10進数の10年前ったらCVSは糞、さっさとsubversionに移行しろ、開発拠点分散してんだけどどーすんの?ってやってたころだろ
          • by Anonymous Coward

            そんな昔からそうなんですね
            この業界入って4年なので、昔のものだとしか知りませんでした
            でも今のプロジェクトでは期待一杯で導入が決まったバージョン管理ソフトらしいです><

    • by Anonymous Coward

      53アカウントだけってのも引っかかるよね。
      バグならもっと壮大に消えてもおかしくなさそう。
      規約には何かあっても知りませんって書いてたとしても、オペミスで消したと言ったら訴えられそうだもんな。

      予想より期待されてたサービスでテンパったのか。
      にしても専用のデータセンターまで建てて、この有様は・・・。

  • by Anonymous Coward on 2012年01月11日 9時21分 (#2078813)

    そんな話どこにも書いてないよね。

    • by Anonymous Coward

      結局オペミスだったって書いてるのになんでディスク障害っていったんだろう。

      • by miyuri (33181) on 2012年01月11日 12時30分 (#2078952) 日記

        オペレータはハードウェアの付属品だからね(ぉ

        親コメント
      • by Anonymous Coward

        公式のリリースがでる前に、データが消えてしまった顧客に対してして営業担当者が第一報として口頭説明したのは
        「ディスク障害」という内容だったようですよ。
        twitter 検索で #sacloud で 2012/1/5,6 あたりの発言を追いかけるとそんな感じです。
        #togetterにまとめがないか探してみたがみあたらんかった。

    • このサービスの宣伝されてました。
      なんでもZFS+InfiniBandの高スループットが採用の決め手だったとか...
      しっかりテストしてありますと書いてあったんだけれど...

  • by Anonymous Coward on 2012年01月11日 9時21分 (#2078814)

    WebARENAのCLOUD9も障害発生しましたよね。今も新規停止してるし。
    国内の低価格帯VPS・専用サーバではでもそれなりの品質で個人的には高評価だったところなので、気になるところです。
    専用サーバからクラウドへの移行も計画していたのですが、しばらくは様子見ですかねぇ。
    VPSは移行するメリットそんなにないし。

  • by Anonymous Coward on 2012年01月11日 9時24分 (#2078817)

    クラウドなんちゃらに限らず新しいサービスは
    ・最低1年ぐらい様子見
    ・実績のある会社が始めてでっかいトラブル一回やって、その後きちんとしたレポートが出ている事を確認
    の2つが出てないと怖くて使えないと言うアレゲにあるまじきヘタレとしてはあんまりきちんとしたレポートが出てないのでまだ怖いです。

    ヘタレとしてはまだ使いにくいので、是非さくらたんにはきちんとしたレポートなり原因なりを公開して欲しいです。

    それを除けば、正直よくある障害だしさくらたんの技術力ならきちんと対策できるレベルだと思うんで(たぶん年末年始だって事も重なって人間系のフェールセーフが上手く働かなかった事もあるだろうななどと勝手に想像して、虎馬が頭の中を駆け巡り胃が痛くなったりしているが)被害にあった方々にはお気の毒というか「βでやれ!」とお怒りの声を上げるのはごもっともだと思うけど、きちんとした原因分析が公開されればそれはそれで株を上げることができると思うんでがんばって欲しいです。

    • by Anonymous Coward

      誰かが人柱になれと申すか...

      • by Anonymous Coward

        いやいやとんでも無い。
        ここはかわいく最初のペンギンって事でどうでしょうか。

        真面目な話、この考え方だと先行者利益は絶対とれないんでヘタレですよ所詮は。

    • by Anonymous Coward

      クラウドに関しては、

      >・最低1年ぐらい様子見
       Amazon(AWS)のクラウドが出てから1年以上経過している。

      >・実績のある会社が始めてでっかいトラブル一回やって、その後きちんとしたレポートが出ている事を確認
       そのAWSが2011年4月にEC2とRDSででっかいトラブルをやって、そのトラブルについてPDF12ページに及ぶ日本語レポートを出しています。
        http://aw [typepad.com]

      • by Anonymous Coward

        あなたは「●●会社が10年やってるサービスをうちは昨日から始めました!だから10年の実績があります」とか言う馬鹿な営業トークを信じちゃう人ですか。

        幸せな人ですね。
        がんがん無駄な人柱になってください。応援してます。

  • by Anonymous Coward on 2012年01月11日 10時46分 (#2078875)

    可能な限りバックアップは取りましょうってことで、初心者向けパソコン記事の内容のまんまになりましたと。

    #もちろんユーザ側の話。

    • by Anonymous Coward

      まあバックアップも消されたんだけどね

      • by Anonymous Coward

        スナップショットはバックアップではないと思うんだ
        正確を期すならば「オフサイトバックアップが重要」か

        • by Anonymous Coward

          さくらの説明では、スナップショットのことをバックアップと説明しているから
          このケースの場合はバックアップも消されたと言っても間違いではない。

          つまるところ、さくらの技術的表明としてはスナップショットをバックアップとして使って問題なく、
          安価なバックアップサービスという意味も含んでいたが、今回の障害ではバックアップごと消したという事実が問題なんでしょう。

          無論、オフサイトにバックアップするメリットは否定しない。

  • by Anonymous Coward on 2012年01月11日 10時56分 (#2078886)

    ITサービスとして実績のある会社ですが、クラウドサービスの
    名称としてちょっとアレですよね。

    #受験生はこんなとこ見ててはいけませんよ

typodupeerror

にわかな奴ほど語りたがる -- あるハッカー

読み込み中...