【小ネタ】CloudWatchの「StatusCheckFailed_Instance」と「StatusCheckFailed_System」について

#Amazon CloudWatch

#AWS

hanse

2015.07.16

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

こんにちは。半瀬です。

今日はサポート対応の備忘ネタで一筆してみようかと思います。

EC2インスタンスが突然落ちた

よくあるサポートケースとして、お客様環境のEC2インスタンスが何らかの理由でネットワーク疎通不能となり、お客様より当該インスタンスからのステータスチェックのアラームを受信したので、その原因調査と対策を提示してもらいたい、といったご要望があります。

そういったケースにおいて、まず障害原因の切り分けとして知りたいのは、「AWS側のEC2ホスティングのシステム的な問題がある」のか、「EC2インスタンス内部に問題がある（リソース不足など様々）」のか、という点です。その結果如何で、ログイン調査をする必要があるのか、AWSサポートに問い合わせる必要があるのか、初期調査の方針が変わってくるからです。

というわけで、今日はインスタンス障害が起きた際の初動確認の観点から、確認すべきCloudWatch項目についてのメモを残しておこうかと思います。

「StatusCheckFailed_Instance」と「StatusCheckFailed_System」

早速結論ですが、確認すべき項目はこの２点です。

CloudWatchの標準メトリクスには「StatusCheckFailed_Instance」と「StatusCheckFailed_System」というものが用意されています。

公式ではコチラです。抜粋すると、

とあります。CloudWatchの見方としては、

となります。

※ 予めインスタンス起動時にCloudWatchによる詳細なモニタリングを「On」にしておく必要があります。

確認の仕方あれこれ

1. AWSマネジメントコンソール：EC2インスタンス

EC2インスタンスのコンソールからは、まず障害のあったインスタンスのIDを検索し、＜モニタリング＞タブを指定→ 一番下にスクロールします。

項目「ステータスチェックに失敗（システム）」、「ステータスチェックに失敗（インスタンス）」がそれにあたります。

それぞれクリックして、拡大が可能です。詳細な時間まで追ってみます。

1.「ステータスチェックに失敗（インスタンス）」＝「StatusCheckFailed_Instance」

2.「ステータスチェックに失敗（システム）」＝「StatusCheckFailed_System」上記は同じ時間帯を表示していますが、（モザイクをかけていてよくわかりませんが；）このケースでは、「StatusCheckFailed_Instance」の値が１で、「StatusCheckFailed_System」が０（変化なし）、つまり、「EC2インスタンス内部に問題がある」と判断ができます。こちらを受けて、管理者は当該インスタンスにログインが可能な状況になったあと、OS起動ログなどから原因を調査を開始する必要がある、と判断できます。