AWS DevOps AgentでLambdaエラーを解決してみる

AWS DevOps AgentでLambdaエラーを解決してみる

2025.12.09

はじめに

かつまたです。
AWS DevOps Agentは、2025年12月にre:InventでPreviewとして発表された、生成AIを活用した自動トラブルシューティングサービスです。CloudWatch Alarms、メトリクス、ログなどのAWSリソースを自動的に分析し、根本原因の特定から対応策の提案まで、運用チームの負担を大幅に軽減する革新的なツールとして注目されています。

本記事では、実際にLambda関数のタイムアウト問題を題材に、DevOps Agentがどのように問題を診断し、解決策を提案するのかを実装例を交えて紹介します。

https://aws.amazon.com/jp/about-aws/whats-new/2025/12/devops-agent-preview-frontier-agent-operational-excellence/

https://dev.classmethod.jp/articles/aws-devops-agent-preview-awsreinvent-troubleshooting/

やってみた

Lambda設定

まず、意図的にタイムアウトエラーを発生させるLambda関数を作成しました。

関数の設定内容

  • メモリ: 128 MB
  • タイムアウト: 3秒
  • コード内容: 5秒間のデータ処理をシミュレート
import time
import json

def lambda_handler(event, context):
    """
    意図的に5秒かかる処理を実行
    デフォルトの3秒タイムアウトでタイムアウトさせる
    """
    print("処理開始: 5秒間のデータ処理をシミュレート")

    # 5秒かかる処理をシミュレート
    time.sleep(5)

    print("処理完了: 正常終了")

    return {
        'statusCode': 200,
        'body': json.dumps({
            'message': '処理が正常に完了しました',
            'processing_time': '5秒'
        })
    }

この設定では、関数の実行に5秒かかるのに対し、タイムアウトが3秒に設定されているため、毎回タイムアウトエラーが発生します。

スクリーンショット 2025-12-09 17.29.05.png

CloudWatch Alarm設定

次に、作成したLambda関数のErrorsメトリクスを監視するCloudWatchアラームを作成しました。

アラームの設定:

  • メトリクス名: Errors
  • 関数名: timeout-demo-function
  • 統計: 合計(Sum)
  • 期間: 1分
  • 条件: 0より大きい(エラーが1件でも発生したらアラート)

このアラームにより、Lambda関数でエラーが発生すると即座に検知されます。
スクリーンショット 2025-12-09 17.41.16.png

スクリーンショット 2025-12-09 17.58.42.png

DevOps Agent設定

  1. まず、Agent Spaceを作成します。Agent SpaceがAWSリソースにアクセスする権限および、DevOps Agent利用時に作成されるWeb アプリがAgent Spaceにアクセスする権限を作成する必要がありますが、今回は両方とも自動作成によって準備しました。
    スクリーンショット 2025-12-09 18.39.08.png

  2. Agent Space作成後、「Operator access」を押下し、調査用Webアプリに入ります。「Start Investigation」から調査してほしい事象・時間帯・リージョン・緊急度などの設定を行います。
    今回はかなり雑に詳細を「Investigating the issue of Lambda function errors occurring」、調査開始点を「lambda alarm」として投げてみました。実際はLambda関数名、CloudWatch Logs名、CloudWatch Alarm名など持ちうる限りの詳細を伝えると調査も早まると思います。
    スクリーンショット 2025-12-09 17.46.32.png

スクリーンショット 2025-12-09 18.03.48.png

スクリーンショット 2025-12-09 18.03.59.png

DevOps Agentでトラブルシューティング

  1. 上記での調査事項の内容設定後、「Start investigating...」を押下すると調査が始まります。

  2. 今回の調査ではまずLambda関数やCloudWatch Alarmの存在確認とメトリクス調査でのエラー確認から始まり、しばらくするとメトリクスより、複数回のエラーが全て3.0秒で起きていることを突き止めてくれました。また、スロットリングや同時実行数の問題がないことも同時に確認してくれました。
    スクリーンショット 2025-12-09 18.12.22.png

スクリーンショット 2025-12-09 18.12.45.png

  1. そしてログも参照し、5秒間の処理を試みているがタイムアウトにより3秒でエラ-が発生しているところまで確認がされました。
    スクリーンショット 2025-12-09 18.15.38.png

  2. 最終結果として3秒のタイムアウト設定とコードの処理内容により、エラーが発生しているといった結果で調査が終了しました。
    最終結果.png

  3. また、「Go to root cause」を選択すると調査結果および根本結果についてのサマリーを確認できます。
    スクリーンショット 2025-12-09 18.16.14

  4. 「Generate mitigation plan」を選択すると具体的な対応策について生成をしてくれます。事前バックアップからエラー再確認、実際の設定変更方法についてCLIコマンドを提供してくれました。また画像には表示されていませんが、適用後の検証やロールバック方法についても提供してくれて驚きました。
    スクリーンショット 2025-12-09 18.19.48.png

スクリーンショット 2025-12-09 18.20.34.png

おわりに

DevOps Agentを利用してほぼ投げる形でトラブルシューティングを依頼してみました。エラー解決まで試してみて、特に以下の点について驚きました。

  • 自動化で手動調査に数時間要する問題を数分で診断できたこと
  • メトリクスとログを自主的に調査し、根本原因の正確な特定を迅速にしてくれたこと
  • CLIコマンドから検証、ロールバックまで完全なプレイブックを提供してくれたこと
    現在バージニア北部リージョンのみでの利用となりますが、解決に繋がりそうなエラーや環境に対して積極的に利用してみたいと思います。
    ご覧いただきありがとうございました。

アノテーション株式会社について

アノテーション株式会社はクラスメソッドグループのオペレーション専門特化企業です。サポート・運用・開発保守・情シス・バックオフィスの専門チームが、最新 IT テクノロジー、高い技術力、蓄積されたノウハウをフル活用し、お客様の課題解決を行っています。当社は様々な職種でメンバーを募集しています。「オペレーション・エクセレンス」と「らしく働く、らしく生きる」を共に実現するカルチャー・しくみ・働き方にご興味がある方は、アノテーション株式会社 採用サイトをぜひご覧ください。

この記事をシェアする

FacebookHatena blogX

関連記事