EC2 Auto Scaling グループの「ヘルスチェックの猶予期間」を正しく理解する
西澤です。今回、ELB配下のEC2 Auto Scaling グループにおいて、"ヘルスチェックタイプ=ELB"とした際の「ヘルスチェックの猶予期間(Grace Priod)」の挙動について、正しく理解できてていなかったので、まとめておきたいと思います。
「ヘルスチェックの猶予期間」について調査した経緯
ELB配下のEC2 Auto Scaling グループにて、高負荷時のみインスタンス数を自動スケールさせて負荷分散している環境で、スケールアウト(台数増)のタイミングで毎度CloudWatchからUnHealthyHostCount
のアラートが発生していることが判明し、調査を行いました。
まず、2台ずつスケールアウトするスケーリングポリシーが設定されていたので、直近のスケールアウトによるLaunch時刻を確認しました。
$ aws autoscaling describe-scaling-activities \ --query "Activities[?AutoScalingGroupName==\`${ASGNAME}\`].[StartTime,EndTime,Description]" \ --output text ::: 2019-05-28T03:38:36.247Z 2019-05-28T03:39:09Z Launching a new EC2 instance: i-039f1519XXXXXXXXX 2019-05-28T03:38:36.247Z 2019-05-28T03:39:09Z Launching a new EC2 instance: i-0b958d7eXXXXXXXXX 2019-05-28T03:43:10.535Z 2019-05-28T03:43:43Z Launching a new EC2 instance: i-004c2a14XXXXXXXXX 2019-05-28T03:43:10.535Z 2019-05-28T03:43:43Z Launching a new EC2 instance: i-083589e5XXXXXXXXX
Launchされた直後にALB TargetGroupのメトリクスにて、UnHealthyHostCount
がカウントされていることを確認しました。
$ aws cloudwatch get-metric-statistics \ --namespace "AWS/ApplicationELB" \ --dimensions Name=LoadBalancer,Value=app/${ALBNAME}/${ALBID} Name=TargetGroup,Value=targetgroup/${TGTNAME}/${TGTID} \ --metric-name UnHealthyHostCount \ --statistics "Average" \ --start-time "2019-05-28T03:30:00Z" \ --end-time "2019-05-28T03:50:00Z" \ --period 60 \ --query "sort_by(Datapoints,&Timestamp)[?Average>\`0\`].[Timestamp,Average]" \ --output text ::: 2019-05-28T03:39:00Z 2.0 2019-05-28T03:44:00Z 2.0
本環境について、もう少しだけ補足しておきます。
- 新規インスタンスがLaunchすると、ユーザデータから初期設定を行っているが、その処理に1分程度かかっている
- Auto Scalingグループ設定は、
ヘルスチェックのタイプ=ELB
かつヘルスチェックの猶予期間=120
想定では、ヘルスチェックの猶予期間
を十分に大きくすれば、ユーザデータから実行される初期設定のスクリプトの処理時間がそれを超えない限り、UnHealthyHostCount
は発生しないだろうと考えていました。そこで、猶予期間をさらに長く設定することも試したのですが、結果としてはUnHealthyHostCount
が無くなることはありませんでした。
「ヘルスチェックの猶予期間」の仕様とは?
公開ドキュメントだけでは、わからなかった為、AWSサポートにも確認を取ったところ、ヘルスチェックのタイプ=ELB
なヘルスチェックの猶予期間
は、あくまでAuto Scalingのヘルスチェック猶予であり、ELBヘルスチェックの猶予では無いということがわかりました。
今回のケースについて、実際にどんな流れになっていたかと言うと、以下であることがわかりました。
- Auto Scalingから新しいEC2がLaunchされ、ステータスOKに
- Auto Scalingヘルスチェックは猶予期間に入る(※今回の設定では120s)
- ELB配下に移動(※今回のケースではALBに紐づくTargetGroup)、ELBヘルスチェック開始→NGなので
UnHealthy
と判定される ※ここでアラートが発生していた - ユーザデータから実行された初期設定が完了、ELBヘルスチェックOKに遷移し、
Healthy
と判定され、ELB経由でのサービス提供開始 - 猶予期間終了(120s経過)し、Auto Scalingヘルスチェック開始(※異常があればAuto Scalingからのterminate対象となる)
まとめ
正確な理解をしていなかった為、調査に手間取ってしまいましたが、ようやく正確に理解することができました。ということで、ELB配下でAuto Scalingを構成する場合には、ELB側のUnHealthyHostCount
を利用するのではなく、Auto Scaling Groupが持っているGroupTerminatingInstances
メトリクスを利用した監視がオススメとのことです。
どこかの誰かのお役に立てば嬉しいです。