【HOOT24】クラスメソッドではAWS監視サービスをご提供しています。

2015.08.14

こんにちは。半瀬です。

クラスメソッドでは、AWS監視サービス「HOOT24」をご提供しています。今日はこちらのご紹介を。

フート 24 | クラスメソッド株式会社

はじめに

「HOOT24」とはサイトロック社と弊社で提供する、24時間365日AWS環境(EC2, ELB, RDS)の"有人"監視サービスです。お客様側よりご提示いただいた設定要件に従って、24x365の監視体制をセットでお届けすることができます。

主なサービスの特徴とメリットを列記してみます。

    1. 1)「AWS環境の監視体制」をご提供:お客様側で監視サーバーの準備が不要。必要なものは最小限のIAM権限とIPアクセス許可のみ
    1. 2)「通知手段の選択」をご提供:有人監視であることにより、「電話連絡」という手段が選択できる
    1. 3)「自動障害対応」をご提供:監視項目ごとに対応を決めることができる。インスタンス再起動などの個別アクションも指定可能
    1. 4)「監視設定の支援」をご提供:弊社オペレーションチームのサポートにより、容易に監視設定ができる

それぞれの要点についてまとめていきます。

AWS環境の監視体制

「HOOT24」では、サイトロック社が管理する監視サーバーから、お客様AWS環境に設置されたEC2、RDS、ELBに対する監視をご提供できます。監視の種類としてはVPC側のネットワーク疎通監視、CloudWatchメトリクスの取得によるリソース監視を準備しています。

構成を簡単にまとめると、以下のようになります。

AWS Design

a. 提供される監視種別

    1. ・外部監視:サイトロック社iDC環境からの疎通監視。AWS"外"からの監視。SecurityGroupによるIP許可が必要
    1. ・内部監視:サイトロック社AWS環境からの疎通監視。AWS"内"からの監視。SecurityGroupによるIP許可が必要
    1. ・CloudWatchカスタムメトリクス:サイトロック社AWS環境からのリソースモニタリング。IAMによるGET許可が必要

b. 環境構成に関する各社担当の役割

    1. ・お客様窓口となるご担当者様:監視項目の指示(閾値・優先度)、障害連絡先の指定、個別アクションの指定 など
    1. ・サイトロック社オペレーター:監視サーバーの設定、管理画面準備
    1. ・弊社オペレーションチーム担当:お客様環境の監視用設定の作業代行(SecurityGroup,IAMなど)、監視要件の整理と管理

環境準備・設定作業・監視サーバーの運用を当サービスでお引き受けしますので、初期設定段階では、お客様側ではどのような監視としたいか(宛先・通知時間帯など)を指定していただくのみです。

c. 実際の監視運用下での各社担当の役割

    1. ・お客様窓口となるご担当者様:障害アラートの受信、障害切り分け、オペレータ宛の対応作業指示
    1. ・サイトロック社オペレーター:要件に従って24x365で対象を監視、障害発生時のエスカレーション、個別アクションの作業実施、監視設定の変更作業
    1. ・弊社オペレーションチーム担当:監視要件の管理、変更連絡窓口

障害発生時には、サイトロック社オペレータよりメールまたはお電話にてご連絡、お客様技術担当者様へ通知されます。実際の運用を進めるにしたがって、監視閾値の調整などの稼働状況に合わせた設定変更が必要となります。弊社技術担当より、推奨値の提案などのサポートをさせていただくこともあります。

通知手段の選択

「HOOT24」は障害発生時の連絡先について、通知時間帯/メール宛先/電話連絡の宛先/エスカレーション優先順 を細かくご指定頂くことが可能です。

通知手法は、時間帯/連絡先をセットとして、管理フォーマット上の「テーブル」としてグルーピングしておく方法をとります。

    1. ・通知時間帯の区別:する(ビジネスタイム、オフタイム平日夜間、オフタイム休日)、しない(24x365)
    1. ・通知先の分担:(例:平日ビジネスタイムはA宛、平日夜間と休日はB宛)
    1. ・エスカレーション優先順位:電話連絡時に使用

上の項目をお客様側で自由に選択/指定いただき、テーブルを作成致します。例えば、

    1. ・緊急度「高」:24x365で電話とメールで連絡してほしい(電話番号、メールアドレスを指定)
    1. ・緊急度「中」:平日日中はメール連絡のみでよいが、夜間休日は電話とメールで連絡してほしい(ビジネスタイムにメールアドレスを指定、オフタイムに電話番号、メールアドレスを指定)
    1. ・緊急度「低」:24x365でメール連絡としてほしい(メールアドレスのみ指定)

といった3つのテーブルセットを用意しておき、監視項目ごとに紐付けることが出来ます。ケースとしては、

    1. i. URL監視での失敗はサービス停止していることを意味するので緊急度は高い(いつでも電話で連絡ほしい!)
    1. ii. ELB下のEC2に障害が起きた場合は、サービス停止に直結しないがアクセス負荷が心配なので緊急度は中程度かな(夜間は電話ほしい)
    1. iii. Disk使用率とかのリソース不足は翌日対応できるので、緊急度は低いな(メールだけでOK)

といった具合で、ビジネスへの影響度を加味して連絡手段と宛先をお客様側で自由にカスタマイズして頂くことが可能です。

(管理ご担当者様のやすらかな眠りも確保されます。

自動障害対応

「HOOT24」のすばらしい点のひとつとして、障害初期対応を個別アクションとして指定し、アウトソーシングできることが挙げられます。

例えば、「疎通不能となったまま起動しているEC2インスタンスがあればstop/startをする」などの対応を予め指定しておくことが可能です(AWSインフラレベルの障害もインスタンス再起動によって解消されるケースが多いです)。

具体的には、「インスタンスごと」「監視項目ごと」に、障害検知時の初期対応として、「個別障害確認」と、「コレクティブアクション」を選択できます。

    1. ・個別障害確認:通知しない/テーブル通りのエスカレーション対応/即時連絡 などの指定が可能
    1. ・コレクティブアクション:EC2再起動/個別で指定したアクション(※) ...etc の指定が可能

また、「EC2の再起動は実施してもらいたいが、実施前に電話連絡をしてほしい」などのご要望にも細やかに対応することが可能です。

加えて、連絡優先度の指定(15分以内連絡/30分以内連絡の2段階)、各種メトリクスごとの閾値の指定や監視間隔(最短5分間隔)などを詳細にご指定いただくことができ、お客様環境でのサービス運用状況に応じた設定に調整することが可能です。

※ 「個別で指定したアクション」:予め用意したスクリプトの実行となります。Apacheの再起動なども可能となります。

監視設定の支援

お客様AWS環境下における「HOOT24」の設定作業(SecurityGroup、IAM、カスタムメトリクス転送設定の準備)、通知テーブルの調整、障害発生時の初期対応に関する調整を弊社オペレーションチームにて作業(あるいは作業支援)をさせていただきます。また、運用段階に入った後の、監視閾値の調整やメンテナンス時のアラート発報停止手配なども弊社にて対応致します。

さいごに

弊社サービスとしてのご紹介となりましたが、「HOOT24」はサイトロック社と共同で提供させていただいております。

以下リンクより、中の人の声を聞くことができます。

【24×365有人監視】有人監視がなぜ必要か?HOOT24の中の人コラム | Developers.io【24×365有人監視】監視変更手続きはとっても簡単 HOOT24の中の人コラム | Developers.io

 

「HOOT24」で安心安全安眠なAWS監視を実現しませんか?

ご利用についてのお問い合わせは下記までお願いいたします!

クラスメソッド株式会社 お問い合わせフォーム

それではー。