大規模障害の訓練を社内で行ってみた

大規模障害の訓練を社内で行ってみた

Clock Icon2025.07.08

はじめに

突然ですが訓練って大事ですよね(挨拶

いざ有事が起きたときにスムーズに対応できるように備えておくことは、企業の危機管理において重要なことだと思います。クラスメソッドでは、有事への対応の一貫として、

  • 当社の問題(責任)で
  • 多くのお客様に影響を及ぼす
    障害を「大規模障害」と定義し、このような障害が発生した際にどう対処すべきかのプロセスを「大規模障害時の行動指針」として内部で定めています。

しかしながら、定めただけではその対応プロセスの有効性が評価しづらいですし、従業員がいざというときにそれに沿って動けるか分かりません。プロセスを定着させるためにも訓練が必要、ということで、この大規模障害を想定した訓練を企画、先日実施しました。この記事では、その内容と振り返りを共有したいと思います。

概要

訓練については、セキュリティに深い知見のある臼田さん ほか、企画に協力いただける社内各部署のメンバー数名で運営チームを組織。チーム内で相談して内容を検討しました。

訓練の設計

訓練で想定する大規模障害は前述のとおり「多くのお客様に影響を及ぼした場合」なので、対応プロセスには個別のお客様への問い合わせ対応のほか、広くお客様へ障害の通知を広報するかどうかの判断・実行、ポストモーテムの実施や障害報告書の作成なども含まれています。これらをすべて実際に一通り行ってみることとしました。

対象サービス

障害が発生するサービスについては、とりあえず訓練初回ということでメンバーズサービスを選定しました。メンバーズサービスは特に会社として障害影響の大きいことが理由です。また運用を担当するオペレーション部がいるため対応自体はスムースに行うことができる、という期待もありました。

環境構築

なるべく実際の対応に近い訓練をしたい、ということで、お客様のAWS環境を擬似的に用意。当社が管理する範囲で問題が発生し、実際にAWS環境に影響が生じるシナリオを考えました。そのうえで顧客役を演じてくれるメンバーを社内で募り、実際の顧客対応をシミュレーションすることとしました。多様な問い合わせが来るように、顧客シナリオは10社ぶん作成。もちろん環境もそれぞれ用意しました。シナリオ策定・環境構築はクラウド事業本部の有志メンバーに準備を手伝っていただいています。かなりのボリュームだったので協力いただいたみなさんには本当に感謝です!

その他の仕掛け

さらに臼田さんの発案で、広く顧客環境に影響がある場合はSNSでも話が広がるだろう、ということで疑似SNS「めそったー」を用意。社員が障害に対するコメントを(外部の人間のつもりで)書き込む、という試みも行ってみました。

めそったー画像
これにより、外部からの反応も気にしつつ、障害対応を進める、というよりリアルな訓練ができました。このめそったーは訓練の仕掛けとしてはたいへん評判が良かったです。

訓練での重点確認事項

訓練において重点的に確認する事項として以下を事前に定義しました。

  • 対応フローのスムーズな実行
    • 対応フローに即して適切なアクションが取れるか
    • 障害対応の手順書やマニュアルが実際に役立つか(漏れがないか)
  • 社内関係者間の連携・情報共有
    • 情報が各関係者が顧客等に説明できるレベルで共有されているか
  • お客様との情報共有
    • 影響を受けたお客様に連絡し、状況説明が適切に行えるか
  • お客様への対応
    • 障害により温度感が上がっているなど、さまざまな状況のお客様に対して適切な対応を取れるか

訓練当日

スケジュール

訓練の期間は13:00-18:00の半日と設定しました。ゴールとしては障害報告書を作成、お客様に共有のうえすべての問い合わせをクローズする、と定義して、18時時点ですべての工程が完了しなくとも強制終了する、と決めました。

13時には開会のMTGを実施。その裏側で障害トリガを仕込んで、開会MTGが終わった頃には障害がすでに発生している状況を作り出しました。

運営側の準備

運営側では、想定されるイベントなどのチェックポイントをまとめた進捗管理表を作成。想定した対応が行われたか、期待される成果物は作成されたかなどを確認、実績時間の記録などを行っていきました。「プロセス通りに各メンバーが対応を進められる」ことを前提とするため、対応に抜けなどが発生してもこちらからは指摘などは行わず、とりあえず対応を進めてもらう、という方針で臨みました。

大規模障害訓練_進捗管理表

結果としては、時間までに完全にすべての工程は完了できなかったのですが、ほぼ終了というところまで進めてもらえました。工程も大きく漏れてしまったものはなく、おおむね想定通りでした。対応のメインはオペレーション部のメンバーでしたが、対応のスムーズさはさすがの一言です。頼もしい限りです。

反省とフィードバック

訓練の終了後、参加したみなさんにフィードバックを募りました。結果として200件を越すご意見をもらいました。ありがたいことです。また、運営側としてもさまざまな反省がありました。以下、簡単にいくつか共有したいと思います。

  • 大規模障害発生時の対応プロセスへの導線。対応プロセスのドキュメントがどこにあるか分からなかった、という声がありました。有事の際に迷わないよう、導線の整備・改善が必要と認識しました。
  • 顧客対応のロールプレイは、お客様を演じたメンバーからはおおむね高評価で、「顧客の気持ちがわかった」などのコメントをもらえました。しかし、お客様の対応をしたメンバーからは多くのプレッシャーを受けて「疲弊した」というコメントもあったので、ちょっと可哀想な思いをさせてしまった、というのが反省点です。お客様対応のシミュレーションについては今後改善の余地がありそうです。
  • 疑似SNSのめそったーは大変評判が良く、「残してほしい」という声があったほどです。いっぽうで、コメントがやや過激になっていたのでは、という声もありました。上記の顧客対応のロールプレイもそうですが、外部の人間を演じる際に意識しすぎて圧が強くなってしまう、という傾向があるのかもしれません。
  • 訓練での最大の反省点は、社内での情報共有・コラボレーションがうまくいかなかったという点でした。クラスメソッドの最大の強みは、社内の大きな問題に対して有志が自分たちで手を挙げて対応に協力してくれることだと思っており、訓練でもそれが発揮されることを期待したのですが、あまりうまくいきませんでした。原因としては、社内での情報発信が実際の障害と誤解されないよう配慮しすぎたせいで、多くの人にうまく情報が伝わらなかったことだと考えています。これは今後の訓練においてきちんと改善したいポイントです。

おわりに

ということでいろいろ反省点はあるのですが、訓練自体は非常に実のあるものだったなと思っています。障害対応プロセスの改善点もいろいろ見えてきました。

いただけたフィードバックをもとにプロセスも訓練の質も改善して、できれば毎年この訓練を実施していければと思っています。そして実際に障害が発生してしまった際に、より速やかに対応できるように改善を続けていきたい所存です。

ということで、ざっとですがクラスメソッド社内の大規模訓練のご報告でした。

ではでは。

Share this article

facebook logohatena logotwitter logo

© Classmethod, Inc. All rights reserved.