AWS Systems Manager Incident Manager の設定から通知までやってみた

2024.03.11

はじめに

テクニカルサポートの 片方 です。
AWS Systems Manager Incident Manager について、検証する機会があったので各種設定からインシデント発生通知後の簡単なアクションまでやってみました。

やってみた

AWS Black Belt Online Seminar の資料を参考にやってみました。
Incident Manager に関するリソースは大きく以下の 6 つに分類されます。

  • 連絡先
    インシデント発生時の連絡先について設定する E メール、SMS、音声 (電話) による連絡が可能

  • エスカレーションプラン
    エスカレーションパスで輪番コールのように連絡先の応答有無に応じて次の連絡先へ連絡を行う

  • オンコールスケジュール
    インシデント時の連絡先ローテーションや連絡を行うスケジュールの設定を行う。日、週、月の単位でローテーションが可能

  • チャットチャンネル
    インシデントの更新と通知をチャットチャネルに連携可能。Slack、Teams、Amazon Chime に対応

  • Runbook(ランブック)
    インシデント対応に必要な手順書の役割を持つ(手動ステップ)。アプリケーションおよびインフラストラクチャタスクを自動化することも可能

  • 対応プラン
    連絡先、エスカレーションプラン、オンコールスケジュール、チャットチャネル、Runbook をまとめたもの。インシデント発生時は関連する対応プランが呼び出される

セットアップ(設定)

Incident Manager のマネジメントコンソール画面より、[セットアップ] を選択

利用規約を読んで問題なければチェックを行い、次へ

最大で 3 つのリージョンを選択可能で最低でも 2 つのリージョン利用を推奨

追加オプションがあれば設定。問題なければ「作成」

リージョンが 1 つ以上アクティブになったことを確認。これでセットアップは終了です。

連絡先

Incident Manager のマネジメントコンソール画面より [通知先の作成] を選択

名前などを記入

今回は Email タイプで作成。他にも SMS や 電話 といった選択も可能

連絡先チャネルごとに連絡が来るタイミングを設定

「作成」を押すと、設定されたコンタクトチャネルにアクティベーションコードが送信されます

アクティベーションコードの入力を求められます

※ Email の場合

※ 他の例
Email と SMS は通知に記載のアクティベーションコードを使用。電話の場合は 1 を入力

アクティベーションコードを入力。問題ければ「完了」

以下になれば成功

エスカレーションプラン

Incident Manager のマネジメントコンソール画面より [エスカレーションプランを作成] を選択 名前などを記入

[通知先の作成] で作成した名前(通知先)を選択

問題ければ「作成」

対応プラン

Incident Manager のマネジメントコンソール画面より [対応プラン] を選択

名前などを記入

エンゲージメントオプションで先ほど作成した、エスカレーションプランを選択

今回は AWS が提供するデフォルトの Incident Manager 用のランブックを利用

ランブックを設定で、テンプレートを表示をクリック

アクションより、ドキュメントのクローン作成をクリック

ランブック作成をクリック

既存のランブックを選択。先ほどクローンしたランブックを選択

ランブックサービスロールは新しいサービスロールを作成を選択(自動で作成してアタッチしてくれます)

問題なければ、「作成」

CloudWatch Alarm の作成

今回は CloudWatch から Incident Manager へインシデント登録します。 StatusCheckFailed_Instance のメトリクスが 1 以上になると発報される CloudWatch Alarm (Incident-Manager-Test-Alarm) を作成する際に、Systems Manager アクションより、[インシデントを作成] を選択
レスポンスプランでは、先ほど作成した [対応プラン名] を選択し、完了

通知の確認

StatusCheckFailed_Instance を発生させて、CloudWatch Alarm を発報

Incident Manager のマネジメントコンソール画面より plan のインシデントが Incident-Manager-Test-Alarm から発生したことを確認

エスカレーションプランより、先ずは Incident-Email-1 宛てに通知が届いたことを確認

エンゲージメントより、通知に記載のコードを入力。問題なければ「承認」


ランブックのステップで [再開] をクリック

各ステップで問題なく「成功」になることを確認して、Recovery まで行えば終了です。お疲れさまでした。

【小ネタ】

タイムラインで「追加」をクリック

メモを記載

カスタムイベントとして、メモ書きを残せます

まとめ

なかなか触れる機会が少なかったサービスでしたが、問題なく動作したのが非常に嬉しかったです。細かな設定や挙動なども引き続き確認したいと思います。 本ブログが誰かの参考となれば幸いです。

参考資料

アノテーション株式会社について

アノテーション株式会社はクラスメソッドグループのオペレーション専門特化企業です。サポート・運用・開発保守・情シス・バックオフィスの専門チームが、最新 IT テクノロジー、高い技術力、蓄積されたノウハウをフル活用し、お客様の課題解決を行っています。当社は様々な職種でメンバーを募集しています。「オペレーション・エクセレンス」と「らしく働く、らしく生きる」を共に実現するカルチャー・しくみ・働き方にご興味がある方は、アノテーション株式会社 採用サイトをぜひご覧ください。