パスワードを忘れた? アカウント作成
16674499 story
ニュース

6月24日にモバイルSuicaなどJR東日本でサービス障害、原因は操作手順書ミス 36

ストーリー by nagazou
そりゃ間違える 部門より
2023年6月24日、JR東日本のシステムにトラブルが発生し、この影響でえきねっとやモバイルSuicaアプリの予約、変更、取り消し、チャージ、Suicaグリーン券の購入、JR東日本びゅうダイナミックレールパックの予約や取り消しなど、モバイルSuicaアプリへのログインを必要とする全てのサービスと会員メニューサイトが利用できない状態となった。この不具合は同日13時に解消された(モバイルSuicaでの案内Impress Watchトラベル WatchITmedia)。

JR東日本はこのシステムトラブルの原因に関して26日に発表をおこなった。24日の段階では「システムサーバの電源トラブル」と説明されていたが、発表によると同日の電源工事で操作手順書に誤りがあり、その手順書をもとに作業員が工事をした結果、ハードウエアの故障や関連データの不整合が発生したという。一連の障害により、サービス利用者から1000件弱の問い合わせがあったとしている(日経新聞)。
この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
  • 作業員の質かな? (スコア:2, すばらしい洞察)

    by Anonymous Coward on 2023年06月27日 13時51分 (#4484977)

    https://www.itmedia.co.jp/news/articles/2306/27/news079.html [itmedia.co.jp]

    マニュアルには本来「盤NO6(CV6)内のブレーカーを『切』にする」と記載されるべきところ、「盤NO6(CV4)内のブレーカーを『切』にする」と書かれていた。
    作業スタッフがこの誤りに気づかず、「盤NO4(CV4)」のブレーカーを切ったため、夜間処理中のシステムへの電源供給が止まり、ハード故障やデータ不整合が発生した。

    この手順書を見て疑問に思って手を止めない作業員はちょっとヤバい。

    • by Anonymous Coward on 2023年06月27日 14時27分 (#4485005)

      モバイルSuica障害…原因は操作手順書に誤り JR東日本 [livedoor.com]

      操作の手順書に誤った記載があったうえ、手順書を作った社員と現地で作業にあたった社員が同じだったことから操作時にもその誤りに気づかなかったということです。

      あるあ…あるあるw(目をそらしながら

      親コメント
      • by Anonymous Coward

        >この手順書を見て疑問に思って手を止めない作業員はちょっとヤバい。
        そうなんだけど、
        >手順書を作った社員と現地で作業にあたった社員が同じ
        なんか、有りそうな話ね。

        でも、複数人で相互チェックして作業してないの?

    • by Anonymous Coward on 2023年06月27日 14時03分 (#4484985)

      聞けよって気持ちは分からんでもないが、ちゃんと現地で着手前打合せしてたらこんなミス起きないと思う。
      本質的には個人の問題ではなく作業管理(プロセス)の問題だと思うな。

      親コメント
    • by Anonymous Coward

      あー、「盤NO違うけど、CV4だからあってるやろ!」って奴が発動したのですか…。
      これは作業員・作業指示者は怒られそうですね。

      現地情報と手順書に矛盾が有る場合は、必ず作業を一時中断し確認すること。は大事ですからね…。

      私も手順書が誤っていて「ちょっと待って!」をしたことが何度かあります。

    • by Anonymous Coward
      そのレベルの作業手順書であることがそもそもヤバいでしょ。
      一作業員の判断で作業が停まるなんてそっちの方が問題。
      • by Anonymous Coward on 2023年06月27日 15時13分 (#4485044)

        え?
        一作業員の判断で作業が止められないのなら、そっちの方が大問題じゃないですか?
        オペミスを防ぐ最後の砦なんだから。

        親コメント
      • by Anonymous Coward on 2023年06月28日 1時01分 (#4485334)

        こういうのは手順書作成者、そして事前のレビューで気づかなかった奴に責任がある
        作業者は手順書が100%正しい前提で、マシンのごとく正確確実にオペレーションを行うことが仕事
        つか手順書作成者がそのまま作業すんなよと

        親コメント
    • by Anonymous Coward

      「手順書に矛盾がある場合は作業を止めて〇〇する」という教育が必要。
      教育受講後の作業員しか作業禁止。

      そういうことをしないなら、作業員が悪いとは言えない。
      言っちゃったらもう改善しようがない。

    • by Anonymous Coward

      指差し確認しないからだろ
      盤ナンバー ろく! よし!
      盤ナンバーろくのブレーカー! かくにん!
      盤ナンバーろくのブレーカー! 状態オン! かくにん!
      盤ナンバーろくのブレーカー! 切断する ブレーカーきり!
      盤ナンバーろくのブレーカー! 切断! かくにんよし!

      てか、カッコの中のCV4はどこだどこだで盤のブレーカーラベルを探したんじゃなねーのかな?
      CV4めっけたから、あったあった、これだでバッチンやっちゃんてない?
      手順書に盤とブレーカーの位置まで図示してないといけなかったやつちがうか?
      作業前の手順チェックで盤とブレーカーの位置関係を把握してないと危険、きけん

    • by Anonymous Coward

      マニュアルには本来「盤NO6(CV6)内のブレーカーを『切』にする」と記載されるべきところ、
      「盤NO6(CV4)内のブレーカーを『切』にする」と書かれていた。
      作業スタッフがこの誤りに気づかず、「盤NO4(CV4)」のブレーカーを切ったため、

      この手順書を見て疑問に思って手を止めない作業員はちょっとヤバい。

      「盤NO6(CV6)」「盤NO6(CV4)」「盤NO4(CV4)」いずれのブレーカーも有るなら作業員のポカだけど
      盤NO とCVのNOが同じものしかない⇒(CV4)の文字を見て盤NO4(CV4)のブレーカーと認識した。という流れなら
      実質一意の管理項番をわざわざ複数回記す(そして片方だけ書き間違える)のがよろしくないかな

      • by Anonymous Coward

        元々は盤NO4(CV4)だったのが設備の増設などで変更が入って、手順書の改版で盤NO6(CV6)に直しそこねたとかなのかな。
        それとも他の類似の手順書を流用して、手順書の変更で盤NO6(CV6)に直しそこねたとかなのかな。

        手順書というのは、手順書が理解出来なくても、手順書の作業を間違えても、問題が起きないように作るもんだ、と言われた。何かやらかしても安全側に倒れるようにと。
        なるべく手順書は新規に作るなとも。誰がその手順書の正しさを保証できるんだと。正しい一面もあるから反論はしなかったが、モヤッとしたのは事実。

  • by Anonymous Coward on 2023年06月27日 13時08分 (#4484949)

    日経の記事についている識者コメント(東大の教授)で、LinuxはWindowsやmacOSに比べて突然の電源断によるファイルシステムの不整合が発生しやすい、という趣旨のことが書いてあるのがもにょる。
    ファイルシステムによるだろ、とか、そもそもUPS組んでなかったのか、とか、他に指摘するところがあるだろうに。

    • by Anonymous Coward

      1000件弱の問い合わせを受け入れられる電源は止まってない指摘とか(どうせ別の場所でしょうけど)

    • by Anonymous Coward

      多重化とかはどうなってたんかな?メインもサブも全部同じ場所同じ電源?改札のチェックもサーバ経由にするって聞いたけど、大丈夫かという不安はあります。モバイルSuicaユーザなんで。

    • by Anonymous Coward

      トラブル内容をみるにデータベース関連だろうに
      ファイルシステムって・・

    • by Anonymous Coward

      なんて名前かわすれたけど、そのコメントはLinuxは書き込みシステムコールが非同期って話をしてるんじゃない?
      FreeBSDは同期だとか、syncコマンドはおまじないで3回実行とかの

      windowsやmacが同期かどうか知らないけど

    • by Anonymous Coward

      ntfsもxfs, ext4もジャーナルだから理論的には似たようなもんなんだけど、
      実戦経験の数が違うのよ。
      かたや、syncせずに落としてファイルシステムが壊れたら、素人が何やってんだ、とオペレーターが叱責されるOS、
      かたや、電源ぶち抜きでファイルシステムが壊れたら、どんなヘボソフトだ、素人か?と、メーカーが叱責されるOS。
      どんなバカが扱ってもそれなりに耐えられないと、コンシューマOSにはなれない。

    • by Anonymous Coward

      何度か読み直すと
      「サーバ用OSでは、パソコン用OSと違い、多くのデータがディスクに書き込まれずに、メモリ上に残っていることがありますので、サーバが予期せず落ちると、データの破壊や不整合が起きて致命的な状態になる場合が多いです。」
      と書いた方が語弊がないとは思った。
      結局、Windows Server OSでも同じなわけだし。

      >LinuxはWindowsやmacOSに比べて突然の電源断によるファイルシステムの不整合が発生しやすい

      元の文章にも問題はありますが、正直、あなたの読解力には問題があると思います。

  • by Anonymous Coward on 2023年06月27日 13時18分 (#4484959)

    これが通常の作業で発生した場合、原因追及とシステムの信頼性の問題となる。
    人為的なミスならそれ以上の追及はない。

    • by Anonymous Coward on 2023年06月27日 13時52分 (#4484978)

      ブレーカーを間違えたといっても操作ミスじゃなく手順書作成ミスとなると電気設備の図面と突き合わせチェックしてなかったのかなとは思うね。
      そもそもそういうレビューをするというプロセスになってないんだとしたらそこが改善点になるし。
      現地作業の着手前に打ち合わせしてると思うんだけど、そこで手順書と図面をにらめっこして、今日はこのサーバの作業なんでこのブレーカー切りますねとかやらなくていいのかなとか。
      手順と図面をにらめっこしてもどのブレーカー切ったらどのサーバに影響が出るのかわからないとしたらドキュメントを見直さないといけないと思うな。
      こういうところの電源設備なんてよく知らないけど、電気設備絡みとなると、極論、コンピュータが壊れたぐらいで済んで良かったねまであるんじゃないかと。

      親コメント
      • by Anonymous Coward

        電鉄系って電源周りも自社がやってたりするから怖い。
        コールドとアースが逆になってたなんてミスが稀にあったし、アースに200VでUPSが逝った事もあった。

    • by Anonymous Coward

      え?

      • by Anonymous Coward

        このスレッドは、お互い言葉足らずですねえ~。
        人為的ミスの場合、再発防止策をセットで出さないといけないですね。

    • by Anonymous Coward

      雑魚システムならそれで報告書通るかも知れないが、このレベルは無理だろ。
      対策会議とか開かれて、担当SIerに厳しい突っ込みが入る地獄の会議が。

      • by Anonymous Coward

        電源工事の作業ミスでSIerが責められるってどういうことやねん!

        • by Anonymous Coward

          そこに機械置く決めたのは、あんたんちの人でしょ

        • by Anonymous Coward

          マニュアルを書いたのは誰だSIerだ裁判だ訴えてやる。

        • by Anonymous Coward

          ほんとは設備が悪いのに下手に表に出てるせいでまず矢面に立たされるのはシステム作った側
          # この件はちゃんと原因出てるけど、最初はシステム作った側が責められたんだろうなぁなんて思ってしまう

    • by Anonymous Coward

      間違いに気づきようがないド素人でもいける、えー、そこから説明いるの…って感じの操作手順書作るのも冗長でくっそダルいんだよな。
      こういう手順のミスで致命的なことになってしまうのは、運用でカバーが招いた悲劇で、設計で何とかすべきではないか。

  • by Anonymous Coward on 2023年06月27日 15時34分 (#4485064)

    指差呼称を廃止?

    • by Anonymous Coward

      作業手順書が間違っているのだから、指差呼称をしても結果は同じ。
      手順書を作る段階でレビューを行っていないから、操作対象を間違えていることに気づかない。
      今回うまくいったとしても次は違うトラブルに見舞われるかも。

      # 鉄輪環境? 一瞬温泉(かんなわ)となにか関係がと思ってしまった。

  • by Anonymous Coward on 2023年06月27日 17時36分 (#4485156)

    今度は電源入れ間違えたとかですかね
    https://twitter.com/JR_Mobile_Suica/status/1673603145300328449 [twitter.com]

  • by Anonymous Coward on 2023年06月27日 17時53分 (#4485165)

    うちの会社の電源工事の手順だと、配電盤で工事する前に電流値確認があるので、生きてるサーバをいきなり落としたりしないようにしてるよ。
    サーバとかスイッチとか電源抜いておかないとダメなので、それはそれで面倒なんだけど。

typodupeerror

長期的な見通しやビジョンはあえて持たないようにしてる -- Linus Torvalds

読み込み中...