【24×365有人監視】有人監視がなぜ必要か?HOOT24の中の人コラム

logo-hoot24

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

はじめに

こんにちは植木和樹です。弊社クラスメソッドではAWS 24時間365日の有人監視サービス「HOOT24(フート24)」を提供しております。

AWSのインフラで起きる致命的な障害を監視・検知し、必要に応じてEC2インスタンスの再起動までを行う、とても便利なサービスです。

EC2では、障害が起きた場合でもインスタンスを再起動するだけで復旧するケースが多いことは良く知られています。「AutoScalingや監視システムを使ったサーバー構成まではまだできていないけど、障害が起きたらひとまず再起動をしてもらいたい!」というお客様にご好評いただいております。

夜間休日や年末年始でも保守用の携帯電話を持たされて、お酒も飲めずにビクビクしていたこれまでのサーバー保守エンジニアなら、AWS+HOOT24の魅力が伝わるのではないでしょうか?(自分含め)

さて本日は「HOOT24」を一緒に提供しているサイトロックさんのブログをご紹介したいと思います。

眠らない監視センター「ROC」

こんにちは。 MSP仕掛け人コラムニスト11号です。

今回は、監視業務を行っている現場 【ROC】 からお話させていただこうと思います。

我々ROCは「24x365の有人監視」を行っています。
眠らない監視センターです。
昼も夜も、雨の日も風の日も休むことはありません。

実際、私は震災があった日も気合で出勤し、ROCは通常通り稼働していました。

眠らない監視センターが、実際に「どのように動いているか」みなさんにご紹介しようと思います。

■障害発生から復旧までの流れ■
(契約サービスによって異なります)

~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

1.アラート検知

 

 アラート検知方法は様々です。

 T-BOXからの検知だけでなく、
 お客様環境の他社監視ツールからのメール取り込み、
 指定された時間に目視にてチェックを行うアルティメイトチェックでの障害確認などがあります。

2.ベリファイ実施(再現性確認)

 

 ここで再現性が確認できなければ通知はせず、アラートは無効と判断し対応を終了します。
 また、再現性の確認方法もお客様のご要望により様々な形で対応できます。

 

3.有効と判断→チケット起票

 ここで起票されるチケットに対応内容が全て記録されます。
 WSIにてリアルタイムで参照する事ができます。

 3-A.電話+メールにてお客様へご報告

  

  決められた通知テーブルに従って通知を行います。
  通知テーブルは監視項目ごとに設定できます。
  また、どなたにも繋がらなかった場合は2時間後に再通知を行います。

   

 3-B.コレクティブアクション(復旧作業)実施

 

  事前に合意したDSAに則り作業を実施します。
  例えばプロセスの再起動などをしますが、ご要望により様々なアクションが可能です。
  万が一不測の事態やDSAに沿わない事態が発生した場合には、速やかにエスカレーションをします。

     

4.復旧確認

 メール送信後チケットをクローズします。
 もちろん、クローズ後もWSIで参照可能です。

~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

と、このような流れになっています。

これらは、有人監視 でしか実現出来ない対応ではないでしょうか。

今回ご紹介した流れは一例です。
お客様のご要望に応じて柔軟に対応することが可能ですので、ぜひご相談ください!

記:MSP仕掛け人コラムニスト11号

出典元:サイトロック コラム URL:http://www.siterock.co.jp/column/

まとめ

いかがでしたでしょうか? EC2障害時にも「人による柔軟な判断をしてからの復旧作業・復旧確認」ができるのは有人監視だけです。HOOT24では24時間365日体制でオペレーターによる監視と復旧作業ができる運用体制を整えております。

AWSの監視でお困りの企業団体様がいらっしゃいましたら、ぜひ弊社営業窓口までお問い合わせください!