[レポート] インシデントレスポンスの自動化及びアラートノイズ削減方法 #devio2022
この記事は2022年7月19日〜29日開催の技術カンファレンス「DevelopersIO 2022」のセッションレポートとなります。
オンコールの管理、エスカレーションの自動化、スケジュール管理のツールとして2009年にサンフランシスコで創業されたPagerDutyについて、機能と実際の活用方法についてデモを混じえて分かりやすくご説明いただきましたので、その内容についてご紹介いたします。
なお、クラスメソッドがお送りするDevelopersIO 2022イベントの全セッションはこちらからご覧いただけます。
本編について
本編はこちらからご覧いただくことができます。
スピーカー
Pager Duty シニアソリューションコンサルタント 大塚 清尊さま
本セッションで学べること
PagerDutyのオンコール管理、イベント管理の自動化に関する機能と活用方法
レポート
PagerDutyとは
- グローバル1万4000社、日本数百社、ユーザー数70万人以上の実績を持つオンコール・イベント管理ツールで十数年の実績
- 100%クラウド化対応
- 500以上の他社プロダクトとネイティブでインテグレーションが可能
- インシデント管理の一元化とお客様のダウンタイムを小さく
PagerDutyの役割
イベント・インテリジェンス
- アラートの一元集約
- クリティカル/クリティカルでないものを自動的に集約
オンコール管理
- 架電。SMS。メール・プッシュ通知・チャットによる通知
- エスカレーションの自動化→担当者が出れない場合に自動的に次の担当者にエスカレーション
- スケジュール管理;オンコールのシフトを自動的に決定、日中・夜間のシフトを組んでいる場合、時間になったら自動的にオンコールの担当者が切り替わる
- アクティビティ時系列:アラートの発生から担当者への振り分け、対応の経緯を時系列で記録
レスポンスの自動化
- サーバーの再起動、状態確認、情報収集を自動化
- レスポンダー動員自動化、ステークホルダーへの連携・通知対応
- チームのパフォーマンスをメトリクスとして保持できる。分析に利用
デモ
サービスグラフによって、ビジネスが提供しているサービス群をあらわしている
楕円のエンティティ=「テクニカルサービス」と呼ぶ
- 発生したアラートやインシデントはテクニカルサービスに対して作成される
- どこに問題があるかを識別
- 各テクニカルサービスにはチーム名が表示されていて、テクニカルサービスに対するOwnershipを可視化
長方形のエンティティ=「ビジネスサービス」と呼ぶ
- テクニカルサービスとの関連性は矢印で表現される
- 複数のテクニカルサービスに支えられてビジネスサービスが成り立っている
アラートが発生するとサービスのどこでエラーとなっているかサービスグラフで見ることができる
アラートが複数発生しても通知アラートは一つに集約が可能
詳細は発生した分確認できる
エスカレーションポリシー
- 通知先を指定
- ○分以内にAcknowlegesをしない場合、次の通知先にエスカレーションするように設定が可能
オンコールスケジュール
- シフトを担当するメンバーを定義する
- 例外定義(担当者がお休みになった場合など)として、上書き設定することができる
連絡先
- ユーザーの定義内で連絡手段を定義することが可能
- 連絡定義では、インシデントレベルに応じた通知手段が設定可能
- 通知手段は複数定義可能で、発生直後にはメールで通知で、○分後に電話で通知など細かく定義が可能
集約機能
- サービスの内でReduce Noiseの設定が可能
- 集約の方法も数種類から定義可能
- タイムベース(時間を基に集約、30分間は内容に関わらず同じ通知として集約、メンテナンスなどの時に指定)
- コンテントベース(条件に応じて集約、条件は事前に定義)
- インテリジェンスベース(機械学習によって集約、アラートのタイトルや時間帯の近さに基づく、手動で集約して機械学習に覚えさせることができる)
仕分けの自動化(Event Orchestration)
- フローを作成
- イベントの条件を指定して、条件にマッチした場合に特定のサービスにルーティングする
- 条件にマッチした場合、P1に区分けする、Severityをクリティカルに、通知のHi urgencyを使ってアラートをあげる、自動化のアクションにつなげる
アラートグルーピング(集約機能)とイベントオーケストレーションによって、90%以上のアラートを抑制することができる
動員依頼
- Response Playsによって自動的に動員依頼をかけることができる
- エスカレーションルールによって通知を実施
- Zoom会議の開催
- ステークホルダー(ビジネス側の責任者や関係者)に対してSMSやe-mailでアップデートをかけることができる
- インシデントの対応者は対応にフォーカスできる
自動化
- 対象のシステムに自動で再起動や修復の為のスクリプト、ステータスチェックなどをかけることができる
- 簡単に必要なステップを自動で実行することができる
Analytics
- Pager Dutyのサービスのパフォーママンスを可視化
- チームのパフォーマンスを分析 -- アサインされるまでの時間 -- Acknowledgesまでの時間 -- 復旧までの時間 -- ユーザーごとの対応量 -- 夜間の対応量 -- 稼働状況、不家事状況 -- チームメンバーのケア・増員
PagerDutyさまからのお知らせ
動画を最後まで閲覧頂いた方にはPagerDutyさまから素敵なプレゼントの抽選もありますので、ぜひ本編をご覧ください。
所感とまとめ
システム運用やセキュリティ用途など、さまざまなシステムから発生するアラートの集約や、チーム内でのオンコール管理、その後の対応自動化などNISTのCSFで言うところの「対応」の部分で力を発揮できる多彩な機能が満載ですね。
自動化という観点だけではなく、いざインシデント対応の時に何をしなければいけないのか事前にしっかり定義しておくことが、本製品の最初のスタートになるかと思います。本製品を通じて、非常に大事なキモとなる部分について考えるいいきっかけになりそうです。