【レポート】Amazon Q Developerで運用問題を素早く解決できることを学べる「 [NEW LAUNCH] Investigate operational issues faster with AI 」に参加しました #AWSreInvent #COP379

【レポート】Amazon Q Developerで運用問題を素早く解決できることを学べる「 [NEW LAUNCH] Investigate operational issues faster with AI 」に参加しました #AWSreInvent #COP379

Clock Icon2024.12.06

こんにちは!AWS事業本部のおつまみです。

今回はre:Invent2024のNEWセッション 「Investigate operational issues faster with AI」 に参加してきたので、内容をご紹介します!

下記アップデート機能のBreakout Sessionでした。

https://dev.classmethod.jp/articles/amazon-q-developer-operational-investigation-capability/

セッション動画

https://www.youtube.com/watch?v=iJZKDb_QopU

セッションの概要

タイトル

Investigate operational issues faster with AI

AIを活用して運用上の問題をより迅速に調査する

概要

Troubleshooting operational issues can be challenging, especially when you're trying to focus on innovating. In this session, discover how to enhance your operational efficiency and extract valuable intelligence from your observability data by harnessing new and existing Amazon Q Developer, Amazon CloudWatch and AWS Systems Manager features to recapture your time.
Learn how Amazon Q acts as another member of your operational team, analyzing your AWS configuration and observability data and presenting hypotheses about the cause of impact. Once you've diagnosed root cause, Amazon Q provides tailored suggestions for remediation using an AWS library of curated runbooks so you can quickly remediate the issue.

運用上の問題のトラブルシューティングは、特にイノベーションに注力しようとする際に課題となります。このセッションでは、Amazon Q Developer、Amazon CloudWatch、AWS Systems Managerの新機能と既存機能を活用して、運用効率を向上させ、可観測性データから価値のあるインテリジェンスを抽出する方法を紹介します。
Amazon Qは運用チームの新しいメンバーとして機能し、AWS構成と可観測性データを分析して、影響の原因に関する仮説を提示します。根本原因が特定されると、Amazon Qは、AWSの厳選されたランブックライブラリを使用して、迅速な問題解決のためのカスタマイズされた提案を提供します。

スピーカー

  • Ania Develter
  • Wei Tao
  • Jared Nance

レベル

300

Session Type

Breakout Session

セッションの内容

セッションは以下の流れで話が進みました。

photo

AIOpsとベストプラクティス

まずはAIOpsとは?の説明から始まりました。
AIOpsは、AIと機械学習を活用してIT運用を自動化し、改善するための手法です。

26c6bdb8-054b-49ba-9753-4f32d07ad4cb-1_all_26089

はじめのスライドではAIOpsの注意事項について以下の点を定義しています。

  • AIOpsはすべての問題を解決してくれる魔法のソリューションではない
  • AIOpsは、機械学習を使用したアルゴリズムとツールのセットであり、機械が得意とするタスクを担当することで人間の作業を加速させられる
  • 必要なシグナルが利用可能でない場合、アルゴリズム、機械、人間のいずれもシステムのパフォーマンスに関する問題を検出したり推論したりすることはできない

このことからAIOpsの現実的な可能性と限界を説明し、その効果的な使用には適切なデータ(シグナル)が不可欠であることがわかります。

そのため重要なベストプラクティスには、以下のようなものが含まれます。

26c6bdb8-054b-49ba-9753-4f32d07ad4cb-1_all_26088

  • 標準化されたライブラリの使用
    • OpenTelemetryなどを使用して、テレメトリ収集方法を標準化する。
  • コンテキストの理解
    • データの文脈を理解するために、規約を使用し、関連情報を関連付ける。
  • データ収集の標準化
    • エラー率やレイテンシなど、一貫したサービス運用メトリクスを使用する。
  • 複数の視点からの観察
    • インフラストラクチャコンポーネントの内部観察と、クライアント視点からの外部観察の両方を行う。

これらのベストプラクティスを実装することで、AIツールがより効果的に機能し、問題の根本原因をより迅速に特定できるようになります。

Amazon CloudWatchのAIOps機能

次に、AWSのモニタリングおよび可観測性サービスであるAmazon CloudWatchの既存のAIOps機能について説明がありました。主な機能には以下のようなものがあります。

26c6bdb8-054b-49ba-9753-4f32d07ad4cb-1_all_26087

CloudWatch anomaly detection

メトリクス異常検出では、機械学習を使用して、メトリクスの異常を自動的に検出できる。過去数週間のデータを基に異常の境界を作成し、可視化やアラートに利用できる。

https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Anomaly_Detection.html

26c6bdb8-054b-49ba-9753-4f32d07ad4cb-1_all_26086

CloudWatch log pattern analysis

機械学習を使用して、大量のログデータから自動的にパターンを検出し、変数データを特定する。

https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/CWL_AnalyzeLogData_Patterns.html

既存サービスがある一方で、異常検出時にいくつか考慮事項も出てきます。

26c6bdb8-054b-49ba-9753-4f32d07ad4cb-1_all_26090

  • バンド(データの標準偏差幅)を考慮し、必要に応じて調整する
  • 異常なイベントのための特定の期間を除外する
  • 不規則な間隔やデータポイント不足などによる疎なデータに注意する(うまく機能しても、それが適切なメトリクスか注意が必要)
  • モデルの再トレーニングが必要か

これらの考慮事項は異常検出の精度と有用性を高めるための重要ポイントとなります。

ここまでの前段を踏まえて、今回登場した新サービスの紹介となります。

AWSの新しいAIOps機能

AWSのプロダクトリーダーから、新しく導入されたAIOps機能について説明がありました。

主な新機能は以下の通りです。

Explore関連機能

26c6bdb8-054b-49ba-9753-4f32d07ad4cb-1_all_26085

  • AWSコンソールのどこからでも関連するテレメトリを探索できる
  • 永続的なサイドパネルを使用して、関連するAWSリソース間をすばやくナビゲートできる
  • テレメトリを発信しているAWSサービスコンソールへのコンテキスト依存のディープリンクが提供される
  • キーと値のペアタグを使用してリソースをフィルタリングおよびドリルダウンできる
  • 追加のセットアップや設定が不要

この機能は、ユーザーがセットアップすることなく、AWSリソース間の関連性を簡単に探索し、問題のトラブルシューティングや分析を効率的に行うことができるようにデザインされています。

Amazon Q Developerを使用した運用調査

26c6bdb8-054b-49ba-9753-4f32d07ad4cb-1_all_26084

  • AWSコンソール全体で利用可能な常駐アシスタント
  • AWS運用の専門知識を活用したガイド付き根本原因分析
  • テレメトリ、デプロイメント、AWS Healthイベントなど、幅広いデータを自動的に調査
  • アラームから自動的に調査を開始
  • 共同調査用のノートブックを提供
  • チャット、ランブックなどを通じたエンドツーエンドの統合

この機能は、AWSの運用環境での問題調査や解決を支援するために設計されており、AIを活用して自動化された分析と指導を提供します。開発者や運用チームが効率的に問題を特定し、解決できるよう支援することを目的としています。

またこの機能により、Amazon Q Developerと人間のオペレーターの連携を示すワークフローも提示されました。

26c6bdb8-054b-49ba-9753-4f32d07ad4cb-1_all_26091

左側のAmazon Q Developerの流れ

  1. 機械学習による異常検出
  2. アラームのトリガー
  3. 自動的に調査を開始
  4. 関連する依存関係を調査
  5. テレメトリ、設定、プロビジョニング状態、デプロイメントイベントをスキャン、分析、要約
  6. 信頼度順にランク付けされた根本原因の仮説を生成・提案
  7. 高信頼度の緩和策を提案

右側のHuman Operatorの流れ

  1. アシスタントの分析と主要な根本原因の仮説をレビュー
  2. 回復策を検証、実行、モニタリング
  3. システムアーキテクチャと回復力を改善

このようにAIによる自動化された分析と人間の専門知識を相互で組み合わせることにより、効率的な問題解決プロセスを示しています。AIが初期分析と提案を行い、人間のオペレーターがそれを検証し、最終的な決定と改善を行うという協調的なアプローチとなっています。

デモンストレーション

最後に新しいAIOps機能のライブデモンストレーションを行いました。デモでは、獣医クリニック向けの予約管理プラットフォームを例に、実際の問題シナリオを通じて機能の使用方法が示されました。

26c6bdb8-054b-49ba-9753-4f32d07ad4cb-1_all_26082

以下の流れでデモは進みました。

  1. アラーム発生時の自動調査
    1. サービスの可用性低下アラームがトリガーされた際、Amazon Qが自動的に調査を開始
  2. 観察と仮説の提示
    1. Amazon Qが関連するメトリクス、ログ、トレース、イベントを自動的に収集し、中間的な観察結果と根本原因の仮説を提示
  3. 対話型の調査
    1. オペレーターはAmazon Qと対話しながら、提案された観察や仮説を確認し、調査を進行
  4. 修正アクションの提案
    1. Amazon Qが問題の緩和のための具体的なアクションを提案
    2. 例えば、DynamoDBテーブルのキャパシティ増加など。
  5. Slack統合
    1. 調査結果やアクションをSlackチャンネルに自動的に共有する機能。

デモの様子を一部撮影したものです。

26c6bdb8-054b-49ba-9753-4f32d07ad4cb-1_all_26083

右側大きな赤枠がQ Developerとなっており、調査結果が表示されています。
その調査結果に対して、人間のオペレーターがその結果を「受け入れるか」「拒否するか」を選択し、調査が進行していく様子が見れました。

デモでは、DynamoDBのスロットリングによる問題と、誤って設定されたリソースポリシーによる問題の2つのシナリオが示されました。Amazon Qが両方のケースで効果的に根本原因を特定し、適切な対応策を提案できることが実演されました。

デモンストレーション動画(追記)

31:32~からコンソールでのデモが確認できるので、ぜひご視聴ください。

https://youtu.be/iJZKDb_QopU?si=fWZEh8BA0euSrpO-&t=1892

まとめ

プレゼンテーションの最後に、主要なポイントと次のステップについてまとめがありました。

総括としては、AWSのAIOps機能の最新の進展を紹介し、複雑な分散システムでの問題解決をAIがいかに支援できるかを示すものでした。新しいAmazon Q機能を中心に、AIが IT運用の効率を大幅に向上させ、人間のオペレーターがより戦略的な意思決定に集中できるようサポートする可能性が強調されました。同時に、これらのツールを効果的に活用するための基盤作りの重要性も強調されました。

おわりに

今回は、Amazon Q Developerの新機能である Operational Investigation Capability(運用調査機能) のセッション内容を紹介しました。

運用調査を実施している方にとっては待望の機能ではないでしょうか!?
私もアップデートされた時、「ついに!きた!」と胸が高鳴りました。

現在はプレビュー中かつ英語のみとなりますが、日本語化対応されると嬉しいですね!

最後までお読みいただきありがとうございました!
どなたかのお役に立てれば幸いです。

以上、おつまみ(@AWS11077)でした!

参考

Share this article

facebook logohatena logotwitter logo

© Classmethod, Inc. All rights reserved.