Amazon Connect AIエージェントのパフォーマンスを測定、改善するためのメトリクスがリリースされました

Amazon Connect AIエージェントのパフォーマンスを測定、改善するためのメトリクスがリリースされました

2026.05.14

はじめに

Amazon Connect AIエージェントにおいて、パフォーマンスを測定、改善するための8つの新しいメトリクスがリリースされました。

https://aws.amazon.com/jp/about-aws/whats-new/2026/04/amazon-connect-ai-agent-metrics/

今回のアップデートにより、AIエージェントが顧客の問い合わせを解決できているか、応答が会話内容やツール実行結果に沿っているか、ツールを正しく利用できているかを確認しやすくなりました。

Amazon Connect now provides eight new metrics to measure and improve AI agent performance, including goal success rate, faithfulness score, and tool selection accuracy.

Amazon Connect は、Goal success rate、Faithfulness score、Tool selection accuracy など、AIエージェントのパフォーマンスを測定および改善するための8つの新しいメトリクスを提供するようになりました。

https://aws.amazon.com/jp/about-aws/whats-new/2026/04/amazon-connect-ai-agent-metrics/

本記事では、AIエージェントのパフォーマンスダッシュボードで確認できる8つのメトリクスと、公開ドキュメントから読み取れる範囲、読み取れなかった範囲を整理します。

結論

今回追加されたメトリクスにより、Amazon Connect AIエージェントの品質を以下の観点で確認できるようになりました。

  • 顧客の問題を解決できたか
  • 応答が会話内容やツール実行結果に沿っているか
  • AIの提案が利用者にとって役に立ったか
  • ツールを正しく使用、選択できているか
  • ツール呼び出し時のパラメータが正しいか
  • AIエージェントがリクエストに対して回答を完了できているか

一方で、各スコアがどのような内部判定で算出されているか、たとえば内部評価モデルを使っているのか、ルールベースなのか、どの情報を根拠に「正しい」と判断しているのか、といった詳細は公開ドキュメントからは確認できませんでした。

そのため、本記事では公開ドキュメントに記載されている定義と、確認できた集計ロジックを中心に紹介します。

AIエージェントのパフォーマンスダッシュボードで確認できます

AIエージェントのパフォーマンスは、Amazon Connect 管理画面の AIエージェントのパフォーマンスダッシュボードから確認できます。

https://docs.aws.amazon.com/connect/latest/adminguide/ai-agent-performance-dashboard.html

ダッシュボードは、[ダッシュボードとレポート] > [AIエージェントのパフォーマンスダッシュボード] から確認できます。

以下の画像では、セルフサービスやエージェントアシスタントの AI パフォーマンス概要を確認できます。

cm-hirai-screenshot 2026-04-27 13.54.39

上段では、回答完了率、目標成功率、忠実性スコアを確認できます。セルフサービスとエージェントアシスタントのそれぞれで、AIエージェントの品質を概要として把握できます。

以下の画像では、AIエージェント単位のパフォーマンスや、時系列での推移を確認できます。

cm-hirai-screenshot 2026-04-27 13.54.54

AIエージェント単位では、役に立つ回答、役に立たない回答、ツール使用の精度、ツール選択の精度、ツールパラメータの精度などを確認できます。

追加された8つのメトリクス

今回確認した8つのメトリクスは以下です。

初回表記 以降の表記 概要
Response Completion Rate(回答完了率) 回答完了率 AIエージェントのセッションが、入力されたリクエストに対して正常に回答できた割合
Goal Success Rate(目標成功率) 目標成功率 AIエージェントが顧客の問題を正常に解決できたセッションの割合
Faithfulness Score(忠実性スコア) 忠実性スコア AIエージェントの応答が、会話内容やツール実行結果に沿っているかを示す割合
Helpful Response(役に立つ回答) 役に立つ回答 AIの提案に対して thumbs up が付けられた件数
Unhelpful Response(役に立たない回答) 役に立たない回答 AIの提案に対して thumbs down が付けられた件数
Tool Utilization Accuracy(ツール使用の精度) ツール使用の精度 AIエージェントがツールを正しく使用できた割合
Tool Selection Accuracy(ツール選択の精度) ツール選択の精度 AIエージェントが正しいツールを選択できた割合
Tool Parameter Accuracy(ツールパラメータの精度) ツールパラメータの精度 ツール呼び出し時に正しいパラメータを提供できた割合

AWSのアップデート情報では8つの新しいメトリクスが追加されたと案内されています。本記事では、ダッシュボードおよびメトリクス定義ページで確認できた上記8つのメトリクスを対象として整理します。

公開ドキュメントで確認できる内容

メトリクス定義は以下のドキュメントで確認できます。

https://docs.aws.amazon.com/connect/latest/adminguide/metrics-definitions.html

目標成功率

目標成功率は、オーケストレーションタイプの AIエージェントが、顧客の問題を正常に解決できたセッションの割合です。

This metric measures the proportion of sessions where the Orchestration AI Agent successfully resolved customer issues. Value is between 0-1, where 1 indicates successful resolution across all sessions.

このメトリクスは、オーケストレーション AIエージェントが顧客の問題を正常に解決したセッションの割合を測定します。値は 0 から 1 の範囲で、1 はすべてのセッションで解決に成功したことを示します。

https://docs.aws.amazon.com/connect/latest/adminguide/metrics-definitions.html

計算ロジックとしては、AIセッションレコードの goalSuccessRate を平均する、と記載されています。

ただし、「顧客の問題を解決できた」と判定する内部ロジックまでは記載されていません。会話の最終状態、ハンドオフの有無、顧客の明示的な肯定、内部評価モデルなど、どの情報をもとに判定しているかは公開情報からは確認できませんでした。

忠実性スコア

忠実性スコアは、AIエージェントの応答が、会話内容やツール実行結果に沿っているかを示すメトリクスです。言い換えると、会話やツール結果にない内容を AI が補って回答していないかを確認するための指標です。

This metric measures the proportion of sessions where the Orchestration AI Agent responses remain faithful to the conversational context, including messages and tool call results. Value is between 0-1, where 1 indicates perfect contextual fidelity.

このメトリクスは、オーケストレーション AIエージェントの応答が、メッセージやツール呼び出し結果を含む会話文脈に忠実であるセッションの割合を測定します。値は 0 から 1 の範囲で、1 は完全な文脈忠実性を示します。

https://docs.aws.amazon.com/connect/latest/adminguide/metrics-definitions.html

計算ロジックとしては、AIセッションレコードの conversationFaithfulnessScore を平均する、と記載されています。

一方で、応答単位で評価しているのか、セッション単位でどのようにスコア化しているのか、内部評価モデルを利用しているのか、といった詳細は公開ドキュメントからは確認できませんでした。

回答完了率

回答完了率は、AIセッションが顧客からのリクエストに対して正常に回答できた割合です。

メトリクス定義では、agentInvocationCount * agentResponseCompletionRate で算出した AI の完了回答の加重合計を、agentInvocationCount の合計で割り、最後に 100.0 を掛けると説明されています。

単純平均ではなく、AIエージェントの呼び出し回数を重みとして使う加重平均になっています。

役に立つ回答、役に立たない回答

役に立つ回答は、AIの提案に対して thumbs up が付けられた件数です。

役に立たない回答は、AIの提案に対して thumbs down が付けられた件数です。

メトリクス定義では、それぞれ helpfulResponseCountunhelpfulResponseCount を合計する、と説明されています。

今回確認した範囲では、セルフサービスの UI で thumbs up / thumbs down を収集する標準的な入力欄は確認できませんでした。そのため、役に立つ回答、役に立たない回答は、おそらくエージェントアシスタントの AI 提案に対するフィードバックを対象としたメトリクスであると推測します。

以下は、エージェント支援で AI の提案に対してフィードバックできる画面です。
cm-hirai-screenshot 2026-05-14 8.41.02
エージェントアシスタントの場合

ただし、セルフサービスが対象外であると明記された公開情報までは確認できていないため、ここはドキュメント上読み取れる範囲に留めます。

ツール使用の精度、ツール選択の精度、ツールパラメータの精度

ツール関連のメトリクスは、AIエージェントがツールを正しく使えているかを確認するための指標です。

  • ツール使用の精度
    • ツールの選択やパラメータを含め、ツール使用全体が正しいかを示す指標
  • ツール選択の精度
    • 正しいツールを選択できたかを示す指標
  • ツールパラメータの精度
    • ツール呼び出し時に正しいパラメータを渡せたかを示す指標

メトリクス定義では、それぞれ toolUtilizationAccuracytoolSelectionAccuracytoolParameterAccuracy を平均すると説明されています。

一方で、以下のような内部判定ロジックは公開ドキュメントからは確認できませんでした。

  • その場面でツールを使うべきだったかを、どのように判定しているのか
  • 正しいツール選択を、どの情報をもとに判定しているのか
  • 複数のツールが候補となる場合、どのように正誤を判定しているのか
  • 正しいパラメータ値を、完全一致で判定しているのか、妥当性も考慮しているのか
  • 必須パラメータのみを評価しているのか、任意パラメータも含めて評価しているのか
  • ルールベースなのか、内部評価モデルによる判定なのか

そのため、現時点では「ツール使用の精度はツール使用全体の正確性」「ツール選択の精度は選択したツールの正確性」「ツールパラメータの精度は渡したパラメータの正確性」と理解するのがよさそうです。

GetMetricDataV2 API でも取得できます

今回のメトリクスは、ダッシュボードだけでなく GetMetricDataV2 API からも取得できます。

https://docs.aws.amazon.com/connect/latest/APIReference/API_GetMetricDataV2.html

主なメトリクス識別子は以下です。

メトリクス API メトリクス識別子
回答完了率 AI_RESPONSE_COMPLETION_RATE
目標成功率 GOAL_SUCCESS_RATE
忠実性スコア FAITHFULNESS_SCORE
役に立つ回答 AI_AGENT_RESPONSE_HELPFUL
役に立たない回答 AI_AGENT_RESPONSE_NOT_HELPFUL
ツール使用の精度 AI_TOOL_UTILIZATION_ACCURACY
ツール選択の精度 AI_TOOL_SELECTION_ACCURACY
ツールパラメータの精度 AI_TOOL_PARAMETER_ACCURACY

カスタムレポートや既存の分析基盤に連携したい場合は、ダッシュボードで全体傾向を確認しつつ、API で必要なメトリクスを取得する構成が使いやすそうです。

なお、メトリクスによって更新頻度が異なります。メトリクス定義ページでは、役に立つ回答、役に立たない回答は6時間ごと、ツール関連の精度メトリクスは24時間ごとに更新されると記載されています。

最後に

Amazon Connect AIエージェントに、パフォーマンスを測定、改善するための8つの新メトリクスが追加されました。

目標成功率や忠実性スコアにより、AIエージェントが顧客課題を解決できているか、応答が会話内容やツール実行結果に沿っているかを確認できます。また、ツール使用の精度、ツール選択の精度、ツールパラメータの精度により、ツール呼び出しを伴う AIエージェントの改善ポイントも見つけやすくなりました。

一方で、各メトリクスの内部判定ロジックまでは公開ドキュメントに記載されていませんでした。運用では、これらの数値を品質改善の目安として活用しつつ、実際の会話ログやツール実行結果もあわせて確認するのがよいと感じました。

この記事をシェアする

AWSのお困り事はクラスメソッドへ

関連記事