[レポート] ゴールドマンサックスはいかにして管理イベントを最小化したか #ARC338 #reinvent

2019.12.28

本記事は、AWS re:Invent 2019 の「ARC338-R How Goldman Sachs minimizes the impact of managing events」についてレポートします。

セッション情報

スピーカー

  • Brian Carlson - Operational Excellence Lead, Well-Architected, Amazon Web Services
  • Elaine Hardwick - Vice President - Cloud Architect, Goldman Sachs
  • Sujoy Saha - Sofware Engineer, Goldman Sachs

セッション概要

The operational excellence pillar of the AWS Well-Architected Framework includes guidance and best practices on operating in the cloud. Join our talk as representatives from Goldman Sachs share how the company applied these best practices to reduce the impact of events and the level of effort they extended to manage them. They also discuss how they enabled their operations teams to safely do more by establishing the standards for operations that enable them to scale as new projects enter the cloud. Learn how AWS Systems Manager OpsCenter can support your situational awareness and event response, enabling you to view, investigate, and remediate operational issues presented with contextually relevant data.

AWS Well-Architected Frameworkの優れた運用の柱には、クラウドでの運用に関するガイダンスとベストプラクティスが含まれています。 ゴールドマンサックスの代表者が、これらのベストプラクティスをどのように適用してイベントの影響を軽減し、イベントを管理するために拡張した労力のレベルを削減したかを共有してください。 また、新しいプロジェクトがクラウドに移行するときに拡張できる運用の標準を確立することで、運用チームがより安全にできるようにする方法についても説明します。 AWS Systems Manager OpsCenterが状況認識とイベント応答をサポートし、コンテキスト関連データで提示される運用上の問題を表示、調査、修正できるようにする方法を学びます。

レポート

アジェンダ

  • イントロダクション
  • 運用上の課題
  • 卓越した運用の自動化
  • ケーススタディ:LambdaデプロイとAmazon EC2バックアップ
  • まとめ

AWS Well-Architected

AWS Well-Architectedの柱

  • 運用上の優秀性
    • 最も重要だと考えるもの
  • セキュリティ
  • 信頼性
  • パフォーマンス効率
  • コスト最適化

運用上の優秀性

運用上の優秀性には、ビジネス価値を提供し、サポートプロセスと手順を継続的に改善するために、システムを実行し、その運用に関する洞察を得る機能が含まれます。

運用上の優秀性の設計原則

  • コードとして操作を実行する
  • 運用手順を頻繁に改善する
  • 失敗を予測する
  • すべての運用障害から学ぶ

運用上の優秀性と AWS Systems Manager OpsCenter

  • 運用上の問題を集約する
    • Amazon CloudWatch EventsとAppInsightsを使用して、運用上の問題を特定する
    • AWSサービス全体からワークアイテムを集中管理する
  • 診断と修正
    • OpsItemsは関連する情報を集めて問題を調査および診断します
    • System Managerのオートメーションを使用して直接アクションを実行する
    • MTTR(平均解決時間)を短縮

ゴールドマンサックス

ユースケース

  • 計算能力の拡張
    • オンプレミスの拡張として
  • リフト & シフト
  • 新しいイノベーション
    • 11000人以上のエンジニアがいて、新しいことを試すサンドボックスとして利用
  • 事業継続性/回復力

ゴールドマンサックス ビジネス原則 #11

私たちは、絶えず変化するクライアントのニーズを予測し、それらのニーズを満たす新しいサービスを開発するために常に努力しています。 私たちは、金融の世界が止まることはなく、自己満足が絶滅につながる可能性があることを知っています。

運用上の課題

あなたならどうしますか?

  • サポートとしてどのように追跡するか、どのチームに連絡するか

運用イベント管理システム

  • 複数のアカウントおよびリージョンに渡る運用監視

  • 手作業による介入は強烈です

  • 明確に定義されていないエスカレーションパス
  • 解決操作は体系化されていません

マイクロアカウントモデルの運用上の優秀性

上記課題の対策

  • 運用項目を一元的に集約する
  • 頻繁なインシデントの自動化されたワークフローを定義
  • 解決できないインシデントのエスカレーションパスを定義

ゴールドマンサックスでの原則

  • インシデントとイベントを追跡
  • 監査のためのエンドツーエンドのインシデント記録
  • インシデントの発生を減らす
  • 手作業による介入を減らす

運用上の優秀性の達成

中央イベント集約

  • AWS CloudTrail
  • AWS X-Ray
    • エラーの状態
    • トレースIDを取得
  • Amazon CloudWatch
  • 上記イベントをEvent Bridgeで集約

Task-Master Lambda

イベントをLambdaで解析して対応が必要なものをOpsItemとして作成

  • イベント/インシデントの解析
  • ソースとイベントのカテゴリを分析する
  • コンテキストデータを使用してOpsItemを作成
  • OpsItemに関連するエスカレーション情報をタグ付け
  • 使用する修復ワークフローを決定

  • OpsItemに必要な情報を付与

  • OpsItemの作成によってトリガー
  • SSMドキュメントの実行
    • スナップショットからインスタンスの復元などを行う
    • 修復できない場合は、手動介入のアラート
  • 自動化実行のレート制御を構成します

アラートのカテゴリに基づいてエスカレーション

イベントに応答するスクリプトのソフトウェア開発ライフサイクル

自動イベント応答システム

オートメーションが失敗した場合に通知を行う

ケーススタディ:Lambdaのデプロイ

ケーススタディ:EBSバックアップ

AWS Backup

  • 主な操作
    • バックアップボールトで一元管理
    • スケジュールと保持を自動化
    • コンプライアンスを改善
  • 主な機能
    • ユーザーはタグでリソースを選択
    • ライフサイクルポリシーが有効
    • 中央のボールトに保管
    • リカバリポイントタグ

EBS リストア

自動化されたリストア

課題と将来の仕事

  • 標準としてのSSMドキュメントの採用
  • 解析の課題
  • 新しいイベントの自動化の定義
  • OpsCenterサービスの制限の管理
  • GSインシデント管理システムとの統合

有益な結果

  • デプロイされたAWSリソースの優れた運用性
  • MTTRの大幅な削減
    • 数日から数時間、数時間から数分
  • 自信を持ってデプロイ
  • 修復とサービス回復の自動化

さいごに

AWSマネージドサービスを活用して多数のアカウント、リージョンを運用している事例の紹介でした。サービスをよく使いこなしていると感じました。ここまで自動化している組織はあまりないので、参考になったのではないでしょうか。