![[レポート]インテリジェントオペレーション:AI による近代化とインシデント対応に参加しました。#AWSreInvent #SPS303](https://images.ctfassets.net/ct0aopd36mqt/4pUQzSdez78aERI3ud3HNg/fe4c41ee45eccea110362c7c14f1edec/reinvent2025_devio_report_w1200h630.png?w=3840&fm=webp)
[レポート]インテリジェントオペレーション:AI による近代化とインシデント対応に参加しました。#AWSreInvent #SPS303
はじめに
こんにちは。AWS re:Invent2025 に参加しているオペレーション部のshiinaです。
現地よりワークショップ「SPS303|インテリジェントオペレーション:AI による近代化とインシデント対応」のレポートをお伝えします。
セッション概要
タイトル
インテリジェントオペレーション:AI による近代化とインシデント対応(SPS303)
詳細
運用効率化の取り組みを変革し、GenAIエージェントがレガシーアプリケーションを近代化し、インシデント管理を改善する方法を学びます。
代表的な3層アプリケーションアーキテクチャをデプロイして基盤を構築し、それをModel Context Protocol (MCP)サーバーとインテリジェントエージェントで強化します。
読み取り専用と書き込み可能なエージェント機能の両方を設定し、アプリケーションの動作とパフォーマンスメトリクスに関するAI主導の洞察を可能にする可観測性フレームワークを構築します。
主なポイント:MCPサーバー構成とエージェントの可観測性の実践的な経験、Amazon Q TransformのAI主導のインシデント検出および自動対応システムの実践的な適用、既存の運用ワークフローへのGenAIエージェントの統合
スピーカー
- Manik Chopra ,Principal Technical Account Manager, Amazon Web Services
- Balu Nair,Sr Technical Account Manager, Amazon Web Services
レベル
300

AIによるクラウド運用について
従来のインシデント対応では、数百万のログを人手で調査する必要がありました。
GenAI によるクラウド運用では、AI エージェントが異常検出やログ調査、関係者への通知などを行うことができるため、運用を大きく効率化することができます。
やってみた
ワークショップは、次の 3 つの構成で実施しました。
- AI によるクラウド運用の概要
- EKS インシデント対応(AI 駆動コンテナトラブルシューティング)
- Lambda セキュリティ分析(AI を活用した脆弱性評価)
使用ツール
- Kiro CLI
- MCPサーバ(CloudWatch)
モジュール1 - MCP環境セットアップとEKSリソース検証
このモジュールでは、従来の手動トラブルシューティングから、Kiro CLI でModel Context Protocol(MCP)サーバーを使用した AI 駆動の運用への変革を体験しました。
従来(手動)のトラブルシューティング
正確なリソース名を把握したうえでコマンドを実行する必要があり、得られた情報同士の関連付けを手動で行わなければならず、運用負荷がかかっていました。
AI を活用したトラブルシューティング
Kiro CLI はコンテキストとフィルターを自動的に理解できるため、コンテキスト付きの自然言語から、目的のログやメトリクスを検索できます。
ワークショップでは例えば次のようなプロンプトでトラブルシューティングを行いました。
List my CloudWatch log groupsShow me CloudWatch log groups related to my EKS clusterShow me the most recent log entries from my ecommerce applicationWhat CloudWatch metrics are available for my EKS cluster?Give me an overview of my EKS clusters including status and running applications
MCP を活用した運用の主なメリットは次の通りです。
- 専門知識がなくても誰でもトラブルシューティングが可能
- インシデント対応の迅速化
- ヒューマンエラーによるオペミス防止
- AI がリソース間の関係を理解し、情報の相関付けを自動で行う
代表的なユースケースとしてはインシデント対応が挙げられますが、
いきなり本番インシデント対応は不安な場合は、まずはアプリケーションの健全性確認など、リスクの低い領域から試してみるのが良いと感じました。

モジュール2 - EKSインシデント対応:AI駆動コンテナトラブルシューティング
このモジュールでは、従来の手動トラブルシューティングと、Kiro CLI と MCP サーバーを使用したAI駆動のインシデント解決の違いを体験しました。
手動アプローチの課題
kubectl コマンドに関する必要な知識であり、ログの解析と解釈に時間を要しました。
また、出力が多く、重要な情報を見逃してしまうリスクが伴います。
何をどこまで見るべきかを判断するために、かなりの専門知識が求められることを改めて実感しました。
AIを活用したトラブルシューティングワークフロー
以下のようなプロンプトでトラブルシューティングを実施しました。
-
全体的なヘルスアセスメント
Analyze the health of my EKS cluster reinvent-lab-cluster-2025 using Cloud Watch. Check container insights for OOM events, pod failures, and resource issues. Also examine control plane logs for any cluster-level problems. Perform a comprehensive check across ALL log groups host,application,dataplane,performance. Do not patch but call out the issues -
メモリの問題の調査
Check container insights logs for OOM kills, exit code 137, and CrashLoopBackOff events in the last 4 hours. Do not run any fix yet. -
根本原因分析
Find all pod restart events, failed containers, and resource constraint issues in the ecommerce namespace. -
包括的な相関関係と推奨事項
Correlate the memory usage patterns with pod restart events and provide optimization recommendations. -
修正推奨事項の取得
Based on the OOM issues in the orders-service, can you fix the memory issues?
Kiro CLI を利用すると、簡単に CloudWatch Container Insights をクエリしたり、クラスター全体のポッドの健全性を分析することができます。
問題の調査から根本原因分析にとどまらず、改善のための推奨事項の提示や、修正案の生成まで行える点が印象的でした。

モジュール 3 - AWS Lambda セキュリティ分析: AI を活用した脆弱性評価
このモジュールでは、従来の手動アプローチと、Kiro CLI による AI を活用した分析の両方で、Lambda 関数のセキュリティ脆弱性を検出し、修正案を検討しました。
ワークショップでシミュレーションした攻撃は次の通りです。
- SQLインジェクション試行
- コマンドインジェクション攻撃
- ブルートフォースログイン試行
- 情報漏洩を狙ったリクエスト
AIを活用したセキュリティ分析
以下のようなプロンプトでセキュリティ分析を実施しました。
-
包括的なセキュリティ分析
Analyze my Lambda functions for security vulnerabilities. Review the attack patterns in CloudWatch logs from the last 15 minutes, examine the function code for SQL injection and command injection vulnerabilities, and provide a detailed security assessment -
特定の脆弱性検出
Check the vulnerable-login and vulnerable-data Lambda functions. Identify SQL injection and command injection vulnerabilities with exact line numbers and provide secure code examples." -
攻撃パターン分析
Analyze CloudWatch logs for the vulnerable Lambda functions. Show me successful attack attempts, their patterns, and which vulnerabilities were exploited. -
セキュリティ対策の推奨事項
Provide step-by-step remediation instructions for the Lambda security vulnerabilities. Include secure code examples I can use to fix the SQL injection and command injection issues.
手動でのアプローチでは、ログとコードの両方を人手でレビューする必要があり、時間がかかるうえに、脆弱性の見落としリスクもあります。
AI を活用することで、包括的なスキャンと攻撃パターンの認識が可能になり、さらにセキュリティインシデント対応に使える実用的なレポートも自動生成できる点が有用だと感じました。

最後に
Kiro CLI を通じた自然言語でのクエリにより、複雑な kubectl コマンドやログ解析の専門知識がなくても、調査・分析・対応まで一連の流れを実行できました。
また、インシデント対応が AI によってどれだけ劇的に改善され得るかを、具体的なユースケースを通して体験できました。
運用の未来の一端を実際に触ってみることができる、非常に学びの多いワークショップでした。
#AWSreInvent
#SPS303









