AWS障害が発生してから復旧するまでの間にAWS Health Dashboard上でどんな情報が表示されるのかまとめてみた

AWSに障害が発生した場合は、AWS Health Dashboardに障害の詳細が表示されます。普段あまり見られるものではないため、この機会にHealth Dashboardで確認できる項目をまとめてみました。
2024.02.27

AWSの障害情報が知りたい

おのやんです。

みなさん、AWSの障害が発生したときに、障害の状況を把握したいと思ったことはありませんか?私はあります。

AWSには、AWSの障害の詳細が表示されるAWS Health Dashboard(以下、Health Dashboard)というサービスがあります。こちらのサービスから、実際に起こっている障害の内容や影響範囲を確認することができます。

しかしAWSの障害自体がそこまで頻繁に起こるものではありません。そのため、Health Dashboardに表示される障害情報を確認する機会があまりありませんでした。

ということで今回は過去に起きたAWS障害を例に、AWS Health Dashboardで確認できる内容をまとめてみたいと思います。

備考

本記事で扱うAWS障害の内容は、過去に起こったものを例に取り上げています。
現在進行形で発生しているAWS障害のお知らせではないので、ご留意いただけると幸いです。

Health Dashboardで確認できる情報

Health Dashboardは、AWSサービスの障害やメンテナンスなどの影響をリアルタイムで確認できるサービスです。過去に存在したAWS Service Health Dashboard (以下、Service Health Dashboard) と AWS Personal Health Dashboard (以下、Personal Health Dashboard) が統合されて誕生したサービスになります。

こちらのHealth Dashboardですが、ログインの有無により確認できる情報が異なってきます。

ログインなしの状態で確認できる情報は、AWS サービス全体の障害・メンテナンス情報です。こちらは、従来のService Health Dashboard で確認していたリージョン規模の障害情報となります。

AWSアカウントにログインしていない場合、こちらのリンクを踏むとリージョン規模の障害・メンテナンス情報が確認できます。

こちらに対して、AWSアカウントにログインしている状態では、自分のアカウントに関係がある障害・メンテナンス情報も確認できるようになります。こちらは、従来のPersonal Health Dashboard で確認していた、AWSアカウント規模の障害情報となります。

今回は、AWSアカウントにログインした状態で、AWSアカウント規模の障害情報を確認していきます。

障害発生時から数分・十数分

今回は、2024年2月22日に発生したAWSのIAM障害を例に、Health Dashboardで確認できる情報をまとめていきます。すべての障害がこのような表示フローをとるわけではないので、あくまで実際に観測した例をもとにしていることはご了承ください。

最初に障害が発生した際、Health Dashboardに第一報が通知されます。ダッシュボードの「未解決の問題と最近の問題」タブに、発生した障害が表示されます。

こちらをクリックすると、こんな感じで詳細が確認できます。

障害発生からHealth Dashboard通知直後の段階では、確認されている障害の内容や影響範囲の速報値が確認できます。実際に障害が発生した場合でも、今回のように既存の環境やリソースに影響がないケースもあります。ここは注意深く確認しましょう。

We are investigating increased error rates for AWS Identity and Access Management (IAM). Authentication and authorization of existing users, credentials, roles, policies are not impacted.

AWS Identity and Access Management (IAM)のエラー発生率の増加について調査しています。 既存のユーザー、認証情報、ロール、ポリシーの認証と承認には影響はありません。(DeepLで翻訳)

こちらの障害情報ですが、内容が更新される場合は、このように画面上部にバナーが表示されます。こちらが表示されたら、ページを更新して障害情報を最新のものにします。

今回の障害だと、障害発生から数分の段階で、具体的な影響範囲が表示されました。この時点では16サービスに影響が及んでいることがわかります。

障害発生から数十分

時間が経つにつれて、Health Dashboard上の障害情報が更新されていきます。今回の障害だと、影響を受けるサービスが時間と共に増加していくのが確認できました。

また、障害に対してAWSが対応している旨を確認することができます。

We are actively working on multiple parallel paths to mitigate this issue. Currently, we're focused on mitigating the issue resulting in propagation delays, which we believe will also lead to an improvement in the overall error rates. We are hopeful that this mitigation will significantly improve the issue, and allow us to shift our efforts toward full resolution, and then fully understanding root cause and preventing recurrence. During this issue, customers may also be unable to load portions of the IAM Management Console, or may receive a message when attempting to navigate to the IAM Management Console homepage that says "IAM service page is currently unavailable". We will continue to provide additional updates as we have them, or within the next 60 minutes.

我々はこの問題を軽減するために、複数の並列パスに積極的に取り組んでいます。現在、我々は伝搬遅延の原因となる問題を緩和することに注力しており、それが全体的なエラー率の改善にもつながると考えています。この緩和策によってこの問題が大幅に改善され、完全な解決に向けて努力を傾けることができるようになり、根本的な原因の完全な把握と再発防止につながるものと期待しています。この問題が発生している間、お客様はIAM管理コンソールの一部をロードできなかったり、IAM管理コンソールのホームページに移動しようとすると「IAMサービスページは現在利用できません」というメッセージが表示されたりする可能性もあります。引き続き、アップデートがあり次第、または60分以内にお知らせいたします。(DeepLで翻訳)

障害復旧

AWS障害が復旧すると、Health Dashboard上の障害情報が表示されなくなります。

実際には表示されるタブが「未解決の問題と最近の問題」から「イベントログ」に移動します。

障害の詳細情報を確認すると、重要度が「解決済み」・ステータスが「クローズ」になっているのがわかります。

影響を受けていたAWSサービスもすべて復旧されたことが確認できました。よかったよかった。

Health DashboardでAWS障害の詳細が確認できる

実際のAWS障害を例に、障害情報をHealth Dashboardで確認してみました。障害復旧に対応してくださっているAWSのエンジニアの方々には頭が上がりません。

実際にAWSの障害が発生した場合は、これらの情報をもとにAWS環境や稼働しているサービスへの影響を確認するようにしてください。そこから迅速に対応に繋げられれば幸いです。では!