
Amazon ConnectでAIエージェントのパフォーマンスを可視化する「AI エージェントのパフォーマンスダッシュボード」が利用可能になりました #AWSreInvent
はじめに
Amazon Connect のアップデートにより、AI エージェントの分析とモニタリング機能が強化されました。
これに伴い、Amazon Connect のコンソール上で利用できるダッシュボード機能に、新たに「AI エージェントのパフォーマンスダッシュボード (AI Agent performance dashboard)」が追加されました。
これまでも Contact Lens やエージェントパフォーマンスなどのダッシュボードがありましたが、今回で8つ目のダッシュボードとなります。

このダッシュボードを使用することで、AI エージェントの対話数、ハンドオフ率、会話ターン数、平均処理時間などの主要なメトリクスを可視化し、継続的な改善(PDCA)に役立てることができます。
本記事では、新しく追加されたダッシュボードで確認できる主要なメトリクスと機能について紹介します。
セルフサービス AI パフォーマンスの概要 (Self-service AI performance summary)
このセクションでは、人間のエージェントが関与せず、AI エージェントのみで対応した「セルフサービス」の対話に関する健全性を確認できます。
デフォルトで表示されるメトリクスは以下の通りです。
- AI 関連の連絡先 (AI involved contacts)
- 人間のエージェントが関与することなく、AI エージェントが顧客の問い合わせを解決したコンタクトの総数です。
- アクティブ AI エージェント (Active AI agents)
- 稼働したユニークな AI エージェントの総数です(名前とバージョンの組み合わせで識別されます)。
- 回答完了率 (Response completion rate)
- AI エージェントのセッションのうち、受信したリクエストに対して正常に応答できた割合です。
- ハンドオフ率 (Handoff rate)
- AI エージェントによって処理されたセルフサービスコンタクトのうち、人間のエージェントへの転送など、追加のサポートが必要と判断された割合です。
- AI 平均会話ターン数 (Avg. AI conversation turns)
- AI が有効なコンタクトにおける会話の平均ターン数です。

回答完了率は、回答の質やお客様の問題解決そのものではなく、あくまで「AI エージェントが技術的に応答を返せたか」を示しているようです。
実際に検証したところ、質問に対して AI エージェントが「わかりません」と回答した場合でも「成功」としてカウントされる挙動を確認しました。そのため、システムエラー等がなければ基本的には高い数値(100%近く)になると思われます。
なお、本セクションに表示される「AI 平均会話ターン数」と「ハンドオフレート」のメトリクスについて、実際に複数回の会話を行っても数値が正確に反映されない、あるいは後述の「バージョン別の AI エージェント」チャートの数値と乖離するといった事象を確認しました。こちらの不具合は、AWSにフィードバック済みです。
エージェントアシスタンス AI パフォーマンスの概要 (AI agent assistance performance summary)
こちらは、AI が人間のエージェントを支援する「エージェント支援」のユースケースにおける健全性を示します。
このセクションで集計されるのは、フロー内の**「コネクトアシスタント (Connect Assistant)」ブロック**にて、エージェントアシスタンスとして「オーケストレーション AI」を指定し利用した場合となります。
(※検証の結果、「回答の推奨」や「手動検索」などはカウントされず、明示的にオーケストレーション AI を組み込んだフローを経由する必要があるようです)
- AI 関連の連絡先 (AI involved contacts)
- AI エージェントが人間のエージェントによる問い合わせ解決を支援したコンタクトの総数です。
- アクティブ AI エージェント (Active AI agents)
- 稼働したユニークな AI エージェントの総数です。
- 回答完了率 (Response completion rate)
- AI エージェントのセッションが正常に応答した割合です。
- プロアクティブインテントエンゲージメント率 (Proactive intent engagement rate)
- AI が検出して提示したプロアクティブなインテント(提案)に対し、人間のエージェントがクリックして反応した割合です。
- AI 平均会話ターン数 (Avg. AI conversation turns)
- AI が有効なコンタクトにおける会話の平均ターン数です。
- 平均処理時間 (Avg. handle time)
- AI エージェントが関与したコンタクトの平均処理時間(AHT)です。

- AI エージェントが関与したコンタクトの平均処理時間(AHT)です。
バージョン別の AI エージェント (AI agents by version chart)
このセクションでは、AI エージェントのバージョンごとのパフォーマンス傾向を確認できます。
新しいバージョンの AI エージェントをデプロイした後、旧バージョンと比較してパフォーマンスが向上しているか、あるいは問題が発生していないかを確認するのに役立ちます。
デフォルトで表示されるメトリクスは以下の通りです。
- AI エージェント呼び出し回数
- API エラー、タイムアウト、システムの問題などの技術的な障害なしに正常に実行されたAI エージェントの呼び出しの数です。
- AI エージェント呼び出し成功率
- 技術的な障害なしに正常に実行されたAI エージェントの呼び出しの割合です。
- AI エージェント平均会話ターン数
- AI エージェントが結果に到達するまでに要した会話の平均回数です。

今回、同じ AI エージェントで異なるバージョンを作成して試行しましたが、ダッシュボード上では全て「SelfService_JP:0」のようにバージョン 0 として集約されて表示される挙動となりました。本来はバージョン1,2のように表示されると推測し、おそらく不具合だと考えられます。
AIエージェントの呼び出し成功率 (AI agents by invocation success rate)
各 AI エージェントごとの呼び出し成功率(Invocation success rate)をグラフで表示します。
特定の AI エージェント、AI エージェントタイプ、またはユースケースでフィルタリングして、問題が発生しているエージェントを特定するのに利用できます。

ナレッジベースの使い方
このセクションでは、AI エージェントが回答を生成する際に、ナレッジベース内の記事をどれだけ参照したかを確認できます。
- ナレッジコンテンツの参照数 (Knowledge Content References)
- AI エージェントによって参照されたナレッジコンテンツ記事の総数をカウントします。
- 計算ロジックとしては、AI エージェントのレコード内で
knowledgeBaseIdが存在する場合にカウントされます。
これにより、AI エージェントが適切にナレッジベースを活用できているか、あるいはナレッジベースの検索が機能しているかを判断する指標として利用できます。

AIエージェントのパフォーマンス動向
AI エージェント呼び出し回数と AI エージェント呼び出し成功率について、一定期間ごとの推移を確認できます。

AI ツールの使い方 (AI tools by version)
このセクションでは、AI エージェントが利用する具体的なツールごとのパフォーマンスを詳細に確認できます。
表示は階層構造になっており、「AI エージェントタイプ」→「AI ツールタイプ」→「AI ツール名」の順にドリルダウンして、個別のツール単位での挙動を特定できます。

画像では、以下の階層でデータが表示されていることがわかります。
- AI エージェントタイプ オーケストレーション (Orchestration)
- AI ツールタイプ モデルコンテキストプロトコル (Model Context Protocol)
- AI ツール KB_Retrieve(ナレッジベース検索ツール)
表示される主なメトリクスは以下の通りです。
- AI ツール呼び出し回数
- 対象のツールが呼び出された合計回数です。
- AI ツール平均呼び出しレイテンシー
- ツールの実行にかかった平均時間(ミリ秒)です。画像の例では
1,327.5ms となっており、ナレッジベースの検索に平均1.3秒ほどかかっていることがわかります。
- ツールの実行にかかった平均時間(ミリ秒)です。画像の例では
- AI ツール呼び出し成功率
- ツールの呼び出しが正常に完了した割合です。画像の例では
80%となっており、10回のうち2回ほど何らかのエラーが発生した可能性が読み取れます。
- ツールの呼び出しが正常に完了した割合です。画像の例では
「以前の〜」とある列は、ダッシュボードのフィルタで比較期間を設定した場合に表示されます。これにより、ツールの変更やバックエンドの改修前後で、レイテンシーや成功率に変化があったかを定量的に評価できます。
バージョン別の AI プロンプト (AI prompts by version)
このセクションでは、AI プロンプトのパフォーマンスを「AI エージェントタイプ」→「AI プロンプトタイプ」→「AI プロンプトバージョン」の階層でドリルダウンして確認できます。
現在の数値と、比較対象期間(「以前の〜」)の数値を並べて確認できるため、プロンプトの変更によるパフォーマンスへの影響(改善したか、悪化したか)を特定するのに役立ちます。
表示される主なメトリクスは以下の通りです。
- AI プロンプト呼び出し回数
- AI プロンプトバージョンが呼び出された合計回数です。
- AI プロンプト呼び出し成功率
- AI プロンプトの呼び出しが正常に実行された割合です。
- AI プロンプト平均呼び出しレイテンシー
- AI プロンプトバージョンの平均呼び出しレイテンシー(ミリ秒単位)です。

呼び出しレイテンシー別の AI プロンプト
このセクションでは、AI プロンプトのバージョンごとに平均呼び出しレイテンシー(応答時間)を視覚的に確認できます。

- 目的: 応答に時間がかかっている(レイテンシーが高い)プロンプトバージョンを特定します。
- 活用: レイテンシーが高いプロンプトは、顧客体験に悪影響を与えている可能性があるため、プロンプトの記述を最適化したり、モデルの設定を見直したりする際の優先順位付けに役立ちます。
呼び出し回数が多いにもかかわらずレイテンシーが高いプロンプトバージョンは、改善によるインパクトが大きいため、特に注視すべきポイントとなります。
呼び出し成功率別の AI プロンプト
このセクションでは、AI プロンプトのバージョンごとに呼び出し成功率(Invocation success rate)を視覚的に確認できます。

- 目的: 呼び出し成功率が低い(エラーが多発している)プロンプトバージョンを特定します。
- 活用: 特定のバージョンの成功率が著しく低い場合、プロンプトの構成やパラメータ設定、あるいは連携しているツールに問題がある可能性があります。これらを早期に発見し、トラブルシューティングを行うために利用します。
高い成功率を維持しているバージョンと、そうでないバージョンを比較することで、安定した運用のための設定値を特定するのにも役立ちます。
おわりに
今回のアップデートにより、Amazon Connect 上で AI エージェントの挙動を「セルフサービス」と「エージェント支援」の両面から定量的に評価できるようになりました。
特に、バージョンごとの比較やプロンプト単位でのレイテンシー確認ができるようになったことで、AI エージェントの精度向上やレスポンス改善のサイクルを回しやすくなったと言えます。
AI エージェントを導入している、または導入を検討している場合は、ぜひこのダッシュボードを活用してパフォーマンスをモニタリングしてみてください。
参考







