Ops JAWS Meetup#19 勉強会 でLT登壇しましたので資料を公開します #opsjaws #jawsug

2021-07-26(月)19:00 - 20:40 JST 開催の Ops JAWS Meetup#19 勉強会で発表した資料です
2021.07.26

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

こんにちは。
ご機嫌いかがでしょうか。
"No human labor is no human error" が大好きな ネクストモード株式会社 の吉井です。

2021年7月26日に開催された 「Ops JAWS Meetup#19 勉強会」に LT 枠で登壇しました。
その資料を公開します。

スライド

サマリ

通知が飛んだ後に何するか?

通知が飛んだあとのアクションを決めておかないと通知する意味がほぼ無くなってしまうと考えます。
ただノイジーなだけの通知では誰も見なくなる可能性が高くなります。

通知が飛んだ後になるをするのか手順書を作っておきましょう。

わかりやすい通知にするには

  1. 通知に回復手順書を含ませる
    1. がっつり作り込む
    2. メンテナンスは大変かも
  2. 通知内容と手順をドキュメントに残しておく
    1. 今回こっちです

ドキュメントの内容

  • アラート名 (件名やSlack表示名など)
  • アラートの意味
  • アラート受領後の対応
  • インシデント責任者、対応してほしいメンバー
  • 影響範囲、依存関係

サンプル

つらかったこと

飛んでくる通知の内容が事前にわからないことがありました。
セキュリティ系や Health は特に。

構築の初期段階から通知を仕込んでおいて様々な通知内容をプロジェクト内に溜め込むことが大切です。

対応手順の更新、しきい値の修正、通知内容の更新などドキュメントは継続的改善が大前提です。
この体制を社内で組んでもらうことも忘れてはなりません。

参考

詳細な手順書の書き方は以下のエントリを参考にしてみてください。

以上、吉井 亮 がお届けしました。