Amazon EC2 Auto Recovery の 通知について

アイキャッチ AWS EC2

はじめに

Auto Recoveryは、EC2インスタンスをモニタリングしハードウェア障害やAWSによる修復が必要なときに自動的にインスタンスを復旧する機能です。今回は「Auto Recovery」が発動した際にAWSアカウントのメールアドレスへ通知される内容をご紹介します。

機能や設定方法についての詳細は以下ドキュメントをご確認ください。

通知内容

メールの本文には以下内容が記載されています。

  • AWS Account ID
  • EC2インスタンスID
  • リージョン
  • 理由
  • 対応内容

自動復旧の成功通知

Auto Recoveryが発動してインスタンスの復旧が成功した際に通知されます。

内容

対象のインスタンスにおいてシステムステータスチェック失敗が検知されたが、EC2 自動復旧によって正常に復旧した。

note:
システム起動処理の際に、自動起動できないプロセスがある場合は、インスタンスへログインし実行する必要があります。

メール本文

Dear Amazon EC2 Customer,

We have important news about your account (AWS Account ID: 000000000000). One of your EC2 instances in the ap-northeast-1 region has failed a System status check and the instance was successfully recovered by EC2 Auto Recovery. The Instance ID is:
i-********

Your instance is running and reporting healthy. If you have startup procedures that aren't automated during your instance boot process, please remember that you need to log in and run them.

You can learn more about EC2 Auto Recovery here: http://docs.aws.amazon.com/AWSEC2/latest/UserGuide/ec2-instance-recover.html

If you have any questions or concerns, you can contact the AWS Support Team on the community forums and via AWS Premium Support at: http://aws.amazon.com/support

Sincerely,
Amazon Web Services

自動復旧のキャンセル通知

Auto Recoveryが発動したが、EC2インスタンスの正常な状態が確認できたので何もアクションしなかった際に通知されます。

内容

対象のインスタンスにおいてシステムステータスチェック失敗が検知されたが、インスタンスの正常な状態を確認したのでEC2 自動復旧は実行しなかった。

一般的に以下理由が考えられます。

  • 1.自動復旧が開始されるまでに、システムヘルスチェックの失敗が短期間で復旧した場合
  • 2.ユーザーによりアラーム状態を変更した場合

メール本文

Dear Amazon EC2 Customer,

We have important news about your account (AWS Account ID: 000000000000). An Auto Recovery action was triggered for your EC2 instances in the ap-northeast-1 region, but no action was taken. The Instance ID is:
i-********

  • Why was no action taken?

EC2 Auto Recovery re-verifies the system health status of an instance before proceeding. During this verification step your instance reported healthy and recovery was therefore not initiated.

Common reasons for this include: 1. A system health check failure was very short-lived and recovered by the time Auto Recovery was initiated 2. A user performed a manual override of the CloudWatch alarm by setting the alarm state to ALARM

  • What do you need to do?

Your instance is running and reporting healthy. You do not need to take any action at this time.

You can learn more about EC2 Auto Recovery here:
http://docs.aws.amazon.com/AWSEC2/latest/UserGuide/ec2-instance-recover.html

If you have any questions or concerns, you can contact the AWS Support Team on the community forums and via AWS Premium Support at: http://aws.amazon.com/support

Sincerely,
Amazon Web Services

自動復旧の失敗通知

Auto Recoveryが発動したがインスタンスの復旧に失敗した際に通知されます。

内容

対象EC2インスタンスにおいてシステムステータスチェックエラーを検知したが自動復旧に失敗しているため、根本的な修復が必要。

Auto Recoveryに失敗する一般的な理由は以下の通りです。

1.代替ハードウェアの一時的な容量不足。
2.インスタンスにインスタンスストアストレージがアタッチされていますが、自動インスタンス復旧の設定がサポートされていません。
3.進行中のサービス状態ダッシュボードイベントがあり、復旧プロセスの正常な実行が妨げられています。サービスの可用性に関する最新情報については、http://status.aws.amazon.com/ を参照してください。
4.インスタンスが、1 日に許可されている 3 回の復旧試行回数に達しました。

対応

システムステータスチェックに失敗している場合は、手動で stop / startを実施する。

note:
基盤となるハードウェアの性能低下に伴ってインスタンスが停止またはリタイアするようAWS側で予定されている場合にも、復旧アクションがトリガーされることがあります。

メール本文

Dear Amazon EC2 Customer,

We have important news about your account (AWS Account ID: 000000000000). One of your EC2 instances in the ap-northeast-1 region has failed a System status check. The instance was configured for Auto Recovery but the recovery attempt failed. The Instance ID is:
i-********

Your instance will remain in the running state and Amazon EC2 will continue to try and remediate the underlying root cause.

  • Why did this happen?

Common reasons for Auto Recovery failure include: 1. Temporary insufficient capacity of replacement hardware. 2. You have attached an instance store to the instance, which is an unsupported configuration for automatic instance recovery. 3. There is an ongoing Service Health Dashboard event that prevented the recovery process from successfully executing. Please refer to http://status.aws.amazon.com for the latest service availability information. 4. Your instance has reached the maximum daily allowance of three recovery attempts.

You can learn more about troubleshooting instance recovery failures here:
http://docs.aws.amazon.com/AWSEC2/latest/UserGuide/TroubleshootingInstanceRecovery.html

  • What do you need to do?

If the instance System status check failure persists, we recommend that you perform a manual stop and start. Please refer to http://docs.aws.amazon.com/AWSEC2/latest/UserGuide/Stop_Start.html for more information. Your instance may subsequently be retired if a hardware degradation is determined to be the root cause for the System status check failure.

You can learn more about EC2 Auto Recovery here:
http://docs.aws.amazon.com/AWSEC2/latest/UserGuide/ec2-instance-recover.htm

If you have any questions or concerns, you can contact the AWS Support Team on the community forums and via AWS Premium Support at: http://aws.amazon.com/support

Sincerely,
Amazon Web Services

まとめ

EC2インスタンスの自動復旧が発動した際にメールで通知される内容をご紹介しました。

参考URL

ではまた。

AWS Cloud Roadshow 2017 福岡