[アップデート] AgentCore Evaluations(Preview)でリリースされました! #AWSreInvent

[アップデート] AgentCore Evaluations(Preview)でリリースされました! #AWSreInvent

2025.12.03

はじめに

re:InventでAgent Coreの新しい機能であるEvaluationsが公開されました!今回はこの機能について解説します。AWS公式からもブログがでているのでこちらもご参照ください。

https://aws.amazon.com/blogs/aws/amazon-bedrock-agentcore-adds-quality-evaluations-and-policy-controls-for-deploying-trusted-ai-agents/

どんな機能なのか

Agent Core Evaluationsは、AIエージェントの実際の行動に基づいてパフォーマンスを継続的に監視・分析できるサービスです。AIエージェントは従来だと、手動や自作したツールによる性能評価を行っていました。この機能によって、正確性、有用性、ツール選択の正確性、安全性、目標達成率、コンテキストの関連性でAIエージェントを評価できます。多角的な評価を定期的に行うことで、性能劣化にいち早く気付くことが可能になります。また、プロジェクトごとに独自の評価ツールを理解する手間が減ることも期待できます。

対応リージョン

現状はプレビューとして以下のリージョンで利用可能になっています。

  • us-east-1
  • us-east-2
  • us-west-2
  • ap-southeast-2
  • eu-central-1

使ってみた

実際にどんな画面なのか確認してみます。us-east-1でAgent Coreにアクセスすることで機能が確認できます。添付画像の下の部分です。

スクリーンショット 2025-12-02 9.21.25.png

Evaluationsのページを日本語訳して表示してみます。オンラインで評価する仕組みや、評価内容のカスタマイズを行えるようです。

スクリーンショット 2025-12-02 9.25.17.png

スクロールすると、評価の設定やカスタム評価を設定できます。

スクリーンショット 2025-12-02 9.27.13.png

Create evaluation configurationで評価の作成を進めると、評価対象のエージェントをエンドポイントで設定するか、CloudWatch Log Groupで設定するか選べます。

スクリーンショット 2025-12-02 9.28.53.png

さらにスクロールすると、どんな要素でAIエージェントを評価するかを選べます。AIエージェントの特性に合わせて、適切なものが選択できます。正確性が重要な領域であれば、正確さを評価対象に選択できます。

スクリーンショット 2025-12-02 9.30.05.png

AIエージェントのどのぐらいのリクエストを評価対象とするか、サンプリングレートも設定できます。すべてのデータを操作すると、今後の金額設定によっては、高額になる可能性もあるので重要な項目です。またどんな権限をもたせるかも設定できます。

スクリーンショット 2025-12-02 9.31.40.png

所感

速報として紹介あげました。個々で評価を実施している会社にとって、かなりよいアップデートとなる予感がしています。今後検証ブログも上げていこうと思います!

この記事をシェアする

FacebookHatena blogX

関連記事