Google Cloud Service Health とは?各サービスの健全性をリアルタイムで把握するために必須のツールだった

Google Cloudで発生するインシデントの内容を把握するためのツールであり、ユーザーはGoogle Cloud Service Healthのダッシュボードを通じてリアルタイムのステータス情報を確認できます。最後には根拠のある健康情報を載せています。
2024.03.12

概要

Google Cloud 側でのインシデントの発生時に内容を把握するために用いられるのが「Google Cloud Service Health」です。

ユーザーが作成したリソース自体の可用性については、それぞれのサービスごとにカスタマイズをして設定しますが、実際にGoogle Cloud側の基盤側のエラーについては、ユーザーではどうすることも出来ません。

Google Cloud プロダクトのステータス情報を提供するために、そしてそのインシデントに対応するために、この仕組みを提供してくれています。

インシデントへの対応

Google Cloudでは、インシデントが発生した際に、下記のようなフローで対応します。
検出 ⇒ 初期対応 ⇒ 調査 ⇒ 軽減/解決 ⇒ フォローアップ ⇒ 事後分析 ⇒ インシデント報告書

初期対応では、Google Cloud カスタマーケアチームが顧客とのやり取りを行い、まずはどのサービスに影響を与えるかなどの情報を速度を優先して情報が提供されます。(全ての情報より速度を優先)

調査が完了した後、軽減/解決を試みます。
これは、インシデントの原因となった変更をロールバックしたり、負荷によってパフォーマンスが低下しているプロダクト(サービス)に一時的にリソースを追加するなどして問題を軽減します。

この問題の軽減/解決には、さまざまなGoogle Cloud側のチームが連携して、実施するようです。

インシデント発生中には、カスタマーケアチームは定期的に更新情報を提供し、その内容にはインシデントの詳細、問題軽減の進捗、連絡のタイムライン、およびステータスの変更が含まれます。

諸々の対処が終わった後、事後分析を行い報告書にまとめます。
報告書の内容は、「問題の症状、影響、根本原因、是正措置、今後のインシデント防止策」をまとめたものとなります。

Google Cloud Service Health ダッシュボード

Google Cloud Service Health(CSH)ダッシュボードには、リージョンとグローバル ロケール別に分類された Google Cloud プロダクトのステータス情報が表示されます。

つまり、ユーザーが現在発生しているインシデントなどの情報をキャッチアップできるのがこのダッシュボードです。
事項から、実際のコンソール画面を触ってみましょう。

  • 下記のPesonal Service HealthのURLからダッシュボードに移動します。(APIは有効化する)
  • 最初は1日のみの検索条件が表示されるので、カスタムで期間を選択してみましょう。

  • 2022/12/11 9:11 ~ 2024/03/11 9:11 で設定してみました。
  • 降順(新しい日付)で発生した事象について確認することができます。

  • 1番上にある最新のイベントについて詳細を確認してみます。

  • 影響を受けるプロダクトとロケーション、最新情報、症状、回避策のように詳細を確認することができます。(画像はすでにGoogle側で解決済みのもの)

補足として、影響を受けるプロダクトとロケーションについては、「影響あり、関連、部分的に関連」の3つで構成されています。

  • 影響あり
    • このインシデントがプロジェクトに影響していることを確認。
  • 関連
    • インシデントはプロジェクトに直接関係しており、プロジェクトで使用しているロケーションにあるGoogle Cloud プロダクトに影響を与える。
  • 部分的に関連
    • インシデントはプロジェクトで使用されるGoogle Cloudプロダクトに関連はあるが、使用していないロケーションで発生しているため影響がない可能性もある。

まとめ

Google Cloud Service Healthは、Google Cloudで発生するインシデントの内容を把握するためのツールであり、ユーザーはこのダッシュボードを通じてリアルタイムのステータス情報を確認できます。

インシデント発生時の対応フローは「検出、初期対応、調査、軽減/解決、フォローアップ、事後分析、インシデント報告書」のステップで構成され、Google Cloudチームが連携して対処します。

また、影響を受けるプロダクトとロケーションは「影響あり、関連、部分的に関連」のカテゴリで分類され、ユーザーは自身のプロジェクトにどの程度影響があるかを判断できます。

とりあえずGoogle Cloud Service Healthという機能があることを知り、Google Cloud側でインシデントが発生した際にどのような対応を行ってくれるかを把握することから始めると良いかもしれません。

Your Health Dashobord

毎年、健康診断を実施している方は多いのではないでしょうか?
それはあなたの向こう1年間のHealth Dashobordになることと思います。

そして、主にさまざまな数値(ガンマ, コレステロール..etc)に基づいて健康かどうかの判断を行うと思いますが、数値が悪い場合には動脈硬化性心血管疾患などを含むあらゆる生活習慣病と関連してくる可能性があります。

これを回避してくれる1種の手段として、運動、そして筋トレが存在します。

運動と脂質代謝 −運動による動脈硬化予防・治療の意義 参照

身体活動は持久的体力および筋力を増加させ,身体組成・骨組成を健康的に維持し,認知機能を改善させる。さらに,総死亡率を低下させ,冠動脈疾患・高血圧・脳卒中・メタボリックシンドローム・2型糖尿病・乳癌・大腸癌・抑うつ状態の発症を抑える

上記は少し前の資料になりますが、これ1枚で運動, 筋トレの重要さを知ることができます。

あなたの健康ダッシュボードの数値も、Google Cloud Service Healthと同様に迅速な対応(=普段から筋トレ)を行うことにより、最小限のインシデント範囲、いやSLA9.9999%のCloud Spannerレベルの可能性を備えた体を目指すことが可能です。