Amazon ConnectのAIを活用したパフォーマンス評価を日本語で検証してみた

2025.08.15
 はじめにAmazon Connectのパフォーマンス評価機能では、事前に作成した評価フォームを利用し、機械学習を用いたスコアリングやエージェントの会話内容の評価を行うことができます。
エージェントが顧客対応完了後にコンタクトの評価フォームに回答すると、評価スコアが算出されます。これにより管理者（評価者）は、スコアの低いコンタクトを対応したエージェントに対して、迅速にフォローアップを行うことができます。
生成AIを活用した自動評価機能は英語のみのサポートとなっていますが、日本語の会話でも自動評価が実行されたため、その精度について検証してみました。
 生成AIの精度向上のため生成AIの精度を向上させるためのガイドラインがAWSドキュメントに記載されています。まずは一度確認しておくことをおすすめします。
https://docs.aws.amazon.com/ja_jp/connect/latest/adminguide/generative-ai-performance-evaluations.html#guidelines-to-improve-generative-ai-accuracy
今回特に参考になった3つのポイントをご紹介します。
 1. 統一された用語の使用可能な限り「同僚」「従業員」「代表者」「代理人」「提携者」などの用語の代わりに「エージェント」を使用します
同様に「メンバー」「発信者」「ゲスト」「サブスクライバー」などの用語ではなく、「顧客」という用語を使用します
 2. 主観的な質問の回避「通話中、エージェントは注意深かったですか？」といった非常に主観的な質問に、生成AIを使用して答えるのは避けます。
 3. 評価者向け手順の活用[評価者向けの手順]ボックスに、評価者や生成AIが質問に答えるのに役立つ情報を追加します。評価フォームを設定する際、各質問に関連付けられた評価者向けの手順内に、質問に回答するための基準を提供することができます。これらの指示は、評価者による評価の一貫性を高めるだけでなく、生成AIを活用した評価を提供するためにも使用されます。
 評価フォームの概要今回作成した評価フォームの内容を解説します。
 基本情報フォーム名: カスタマーサービス評価フォーム4
評価方式: 完全自動評価
自動評価: 有効
 セクション構成と重み配分作成した評価フォームは以下の5つのセクションで構成しています。
セクション1: 挨拶・開始対応（重み: 25%）
セクション2: 顧客対応・問題解決（重み: 30%）
セクション3: コミュニケーション・感情管理（重み: 25%）
セクション4: 効率性・プロセス遵守（重み: 15%）
セクション5: 通話終了・満足度確認（重み: 5%）

 セクション1: 挨拶・開始対応評価者向け手順: このセクションでは、エージェントが顧客との最初の接点でプロフェッショナルで温かい印象を与えることができたかを評価します。

 質問1.1: 適切な挨拶評価項目: エージェントは適切な挨拶を行いましたか？
オートメーション: 生成AI
評価者向け手順: エージェントは通話開始時に挨拶、会社名、名前、用件確認を行う必要があります。
回答選択肢:
はい (10点)
いいえ (0点)



回答



スコアリング



オートメーション

 質問1.2: 名前の紹介評価項目: エージェントは自分の名前を明確に名乗りましたか？
オートメーション: 生成AI
評価者向け手順: エージェントが挨拶時に自分の名前を顧客に分かりやすく伝えたかを評価してください。
回答選択肢:
明確に名乗った (10点)
不明瞭だった (5点)
名乗らなかった (0点)


 セクション2: 顧客対応・問題解決（重み: 30%）評価者向け手順: このセクションでは、エージェントの技術的能力と問題解決スキルを評価します。

 質問2.1: 問題解決能力評価項目: エージェントは、顧客の問題を正確に理解し解決できましたか？
オートメーション: 生成AI
評価者向け手順: エージェントが顧客の問題を正確に復唱し、適切な解決策を提示できたかを評価してください。顧客の問題を間違って理解した場合は「理解不足」、解決策が提示されなかった場合は「理解したが未解決」とします。
回答選択肢:
完全に解決 (10点)
部分的に解決 (7点)
理解したが未解決 (3点)
理解不足 (0点)


 質問2.2: 中断の回数（Contact Lens自動評価）評価項目: 通話中の中断回数を評価してください
オートメーション: Contact Lens
自動測定: Contact Lensの「NUMBER_OF_INTERRUPTIONS」ラベル使用
評価者向け手順: 通話中にエージェントが顧客の発言を遮った回数を評価してください。
スコア配分:
0-2回 (10点)
2-5回 (7点)
5-10回 (3点)
10回以上 (0点)






Contact Lensの「NUMBER_OF_INTERRUPTIONS」などの選択できるメトリクスは以下のドキュメントにまとまっております。
https://docs.aws.amazon.com/ja_jp/connect/latest/adminguide/contact-lens-metrics.html
 質問2.3: 解決策の説明評価項目: エージェントは解決策を顧客に分かりやすく説明しましたか？
オートメーション: 生成AI
評価者向け手順: エージェントが提案した解決策について、専門用語を避けて顧客が理解しやすい言葉で説明したかを評価してください。
回答選択肢:
非常に分かりやすく説明 (10点)
ある程度分かりやすく説明 (7点)
説明が不明瞭 (3点)
説明なし (0点)


 セクション3: コミュニケーション・感情管理（重み: 25%）評価者向け手順: このセクションでは、エージェントの対人コミュニケーション能力を評価します。

 質問3.1: 言葉遣い評価項目: エージェントは顧客に対して丁寧で適切な言葉遣いで対応しましたか？
オートメーション: 生成AI
評価者向け手順: エージェントの言葉遣いを通話全体を通して評価してください。
回答選択肢:
常に丁寧 (10点)
概ね丁寧 (7点)
時々不適切 (3点)
不適切 (0点)


 質問3.2: 顧客感情評価（Contact Lens自動評価）評価項目: 顧客の感情状態を評価してください
オートメーション: Contact Lens
自動測定: Contact Lensの「OVERALL_CUSTOMER_SENTIMENT_SCORE」ラベル使用
評価者向け手順: 通話中の顧客の感情状態を評価してください（-5から5の範囲で入力）。
スコア配分:
1から5 (10点)
-1から1 (7点)
-3から-1 (3点)
-5から-3 (0点)






 セクション4: 効率性・プロセス遵守（重み: 15%）評価者向け手順: このセクションでは、エージェントの業務効率性を評価します。

 質問4.1: プロセス遵守評価項目: エージェントは必要な手順やプロセスの遵守しましたか？
オートメーション: 生成AI
評価者向け手順: エージェントが以下の必須手順を実行したかを確認してください：1) 顧客の問題を詳しく聞き取り内容を復唱確認、2) 解決策を分かりやすく説明、3) 解決策について顧客が理解したか確認、4) 「他にご不明な点はございませんか」等の最終確認。これらの手順をすべて実行した場合のみ「完全に遵守」とします。
回答選択肢:
完全に遵守 (10点)
概ね遵守 (7点)
部分的に遵守 (3点)
未遵守 (0点)


 セクション5: 通話終了・満足度確認（重み: 5%）評価者向け手順: このセクションでは、通話終了時の適切な処理を評価します。

 質問5.1: 顧客満足度確認評価項目: エージェントは通話終了前に顧客の満足度を確認しましたか？
オートメーション: 生成AI
評価者向け手順: エージェントが通話終了前に「問題は解決されましたか」「他にご質問はございませんか」などの満足度確認を行ったかを評価してください。
回答選択肢:
明確に満足度を確認 (10点)
部分的に確認 (5点)
確認なし (0点)


 評価対象の会話内容上記の評価フォームをもとに、今回評価対象とした顧客対応の会話内容をご紹介します。会話内容は生成AIで作成したサンプルです。
 チャット対応例：商品未着に関するお問い合わせエージェント: こんにちは。この度は弊社カスタマーサポートにお問い合わせいただき、ありがとうございます。私、サポート担当の田中と申します。本日はどのようなご用件でしょうか？
顧客: こんにちは。3日前に注文した商品がまだ届かないんです。追跡番号も教えてもらっていないし、どうなっているのか心配で...
エージェント: ご心配をおかけして申し訳ございません。商品の配送状況について確認させていただきますね。恐れ入りますが、ご注文番号をお教えいただけますでしょうか？
顧客: 注文番号は ORD-240315-0023 です。
エージェント: ありがとうございます。確認いたします。少々お待ちください。
エージェント: お待たせいたしました。ORD-240315-0023のご注文を確認いたしました。こちら、3月15日にご注文いただいた「ワイヤレスイヤホン（ブラック）」ですね。
顧客: そうです、それです。
エージェント: 申し訳ございません。システムを確認したところ、配送業者の都合により配送が遅延しており、通常3-5営業日のところ、追加で2-3日かかる見込みです。また、追跡番号のご連絡が漏れておりました。深くお詫び申し上げます。
顧客: えー、そんなに遅れるんですか？プレゼント用だったのに...もう間に合わないじゃないですか！
エージェント: 大変申し訳ございません。プレゼント用でいらっしゃったのですね。このような状況になってしまい、心からお詫び申し上げます。
顧客: どうしてくれるんですか？もうプレゼントする日は過ぎてしまいました。
エージェント: 本当に申し訳ございません。お客様にご迷惑をおかけしたお詫びとして、以下の対応をご提案させていただけませんでしょうか？
商品代金の全額返金
今回の商品は無償でお届け（到着時期は1週間後見込み）
次回ご注文時に使える20%OFFクーポンの発行
いかがでしょうか？
顧客: そうですね...返金していただけるなら助かります。商品の方はもう必要ないので、返金でお願いします。
エージェント: 承知いたしました。それでは返金手続きを進めさせていただきます。ご注文時のクレジットカードへの返金で宜しいでしょうか？
顧客: はい、お願いします。
エージェント: ありがとうございます。返金処理を完了いたしました。通常3-5営業日でお客様のカードに返金が反映されます。また、商品につきましては配送をキャンセルし、到着次第こちらで処理いたします。お受け取りいただく必要はございません。
顧客: わかりました。ありがとうございます。
エージェント: この度は、ご注文いただいた商品の配送遅延により、ご迷惑をおかけして誠に申し訳ございませんでした。今後このようなことがないよう、配送管理の改善に努めてまいります。
他にご不明な点やご質問はございませんでしょうか？
顧客: いえ、大丈夫です。対応していただき、ありがとうございました。
エージェント: こちらこそ、貴重なお時間をいただきありがとうございました。今後ともどうぞよろしくお願いいたします。それでは、チャットを終了させていただきます。失礼いたします。
 評価結果の確認上記の会話に対して自動評価を実行した結果、総合スコアは100点でした。
 評価実行のタイミングについて評価は以下のタイミングで実行することができます。
自動評価：コンタクト終了後に自動で評価を実行
手動評価：過去のコンタクトに対してコンタクト詳細ページから任意のタイミングで評価を実行
また、評価フォームを微調整した後、同じコンタクトに対して再評価を行うことも可能です。これにより、評価基準の調整や精度向上を図ることができます。
自動評価の詳細な設定方法については、以下の記事をご参照ください。
https://dev.classmethod.jp/articles/amazon-connect-performance-evaluation-auto-evaluation/
 セクション1: 挨拶・開始対応 質問1.1: 適切な挨拶評価結果: はい（10点）
生成AIが生成した回答（回答根拠）: エージェントは顧客に挨拶をし、自己紹介をして、通話の目的を確認しており、これは指示に示された基準を満たしている。

この回答を支持する会話記録の参考例：
"こんにちは。この度は弊社カスタマーサポートにお問い合わせいただき、ありがとうございます。私、サポート担当の田中と申します。本日はどのようなご用件でしょうか？"
AIが満点と評価した根拠は正しく判定できています。ただし、生成AIが生成した回答は英語で出力されました。これは英語のみサポートされているためと考えられます。
 質問1.2: 名前の紹介評価結果: 明確に名乗った（10点）
生成AIが生成した回答: エージェントは顧客への自己紹介の際に、自分の名前を「田中」とはっきりと名乗った。

この回答を支持する会話記録の参考例：
"私、サポート担当の田中と申します。"

こちらもAIが満点と評価した根拠が正しく判定されています。
 セクション2: 顧客対応・問題解決 質問2.1: 問題解決能力評価結果: 完全に解決（10点）
生成AIが生成した回答: エージェントは顧客の問題を正確に理解し、配送遅延について詳細な説明を提供して、顧客のニーズに対応した包括的な解決策を提案した。
この回答を支持する会話記録の参考例：
"ご心配をおかけして申し訳ございません。商品の配送状況について確認させていただきますね。"
"申し訳ございません。システムを確認したところ、配送業者の都合により配送が遅延しており、通常3-5営業日のところ、追加で2-3日かかる見込みです。"
"本当に申し訳ございません。お客様にご迷惑をおかけしたお詫びとして、以下の対応をご提案させていただけませんでしょうか？1. 商品代金の全額返金 2. 今回の商品は無償でお届け（到着時期は1週間後見込み） 3. 次回ご注文時に使える20%OFFクーポンの発行"

 質問2.2: 中断の回数評価結果: 0回（10点）
生成AIは利用されていません。Contact Lensの「NUMBER_OF_INTERRUPTIONS」の値が自動的に設定されます。

通話の場合は中断回数(顧客の発話を遮った回数)がカウントされますが、チャットの場合はカウントされず0になります。
 質問2.3: 解決策の説明評価結果: 非常に分かりやすく説明（10点）
生成AIが生成した回答: エージェントは、返金、無料配送、割引クーポンを含む提案された解決策について、顧客が理解できないような専門用語を使わずに、明確かつ簡潔に説明した。

この回答を支持する会話記録の参考例：
"本当に申し訳ございません。お客様にご迷惑をおかけしたお詫びとして、以下の対応をご提案させていただけませんでしょうか？1. 商品代金の全額返金 2. 今回の商品は無償でお届け（到着時期は1週間後見込み） 3. 次回ご注文時に使える20%OFFクーポンの発行"

 セクション3: コミュニケーション・感情管理 質問3.1: 言葉遣い評価結果: 常に丁寧（10点）
生成AIが生成した回答: エージェントは通話全体を通じて、不便をおかけしたことへの謝罪や敬語の使用など、一貫して丁寧で敬意のある言葉遣いを用いた。

この回答を支持する会話記録の参考例：
"ご心配をおかけして申し訳ございません。"
"本当に申し訳ございません。お客様にご迷惑をおかけしたお詫びとして、..."

 質問3.2: 顧客感情評価評価結果: 感情スコア 5（10点）
生成AIは利用されていません。Contact Lensの感情分析により、顧客の全体的な感情スコアは5と算出されました。
 セクション4: 効率性・プロセス遵守 質問4.1: プロセス遵守評価結果: 完全に遵守（10点）
生成AIが生成した回答: エージェント顧客の注文詳細の確認、解決策の説明、他に質問がないかの確認など、必要なステップをすべて実行した。

この回答を支持する会話記録の参考例：
"ご注文番号をお教えいただけますでしょうか？"
"本当に申し訳ございません。お客様にご迷惑をおかけしたお詫びとして、以下の対応をご提案させていただけませんでしょうか？..."
"他にご不明な点やご質問はございませんでしょうか？"

 セクション5: 通話終了・満足度確認 質問5.1: 顧客満足度確認評価結果: 明確に満足度を確認（10点）
生成AIが生成した回答: エージェントは通話の最後に顧客に他に質問がないか尋ねており、これは担当者が解決策に対する顧客の満足度を確認したことを示している。

この回答を支持する会話記録の参考例：
"他にご不明な点やご質問はございませんでしょうか？"

 総合評価結果総合スコア: 10.0/10点（100%）
セクション別スコア:
セクション1（挨拶・開始対応）: 10.0点
セクション2（顧客対応・問題解決）: 10.0点
セクション3（コミュニケーション・感情管理）: 10.0点
セクション4（効率性・プロセス遵守）: 10.0点
セクション5（通話終了・満足度確認）: 10.0点
全体を通して、生成AIによる質問への評価が適切で、評価の根拠も正しく記載されている印象でした。生成AIが生成した回答自体は、英語のまま出力されました。
 まとめAmazon ConnectのAIを活用したパフォーマンス評価機能を日本語で検証しました。
生成AIとContact Lensの組み合わせにより、従来の手動評価では困難だった詳細な分析が自動で実行され、より効果的で効率的な対応品質管理が実現できます。
今回の検証で確認できた点は以下のとおりです。
日本語の会話であっても、質問に対する評価結果の根拠は正確で、日本語環境でも問題なく利用できることが確認できました
今回の評価例では、エージェントが困難な状況（商品未着でプレゼント用途の緊急性）において、適切なプロセスを遵守しながら顧客満足度を向上させる優秀な対応を行い、100点のスコアとなりました
対応が不適切だった場合のスコアや評価根拠については、今後検証してみたいと思います

「AIが生成した回答」は英語で出力されます。これは英語のみサポートされているためと考えられます
 参考https://docs.aws.amazon.com/ja_jp/connect/latest/adminguide/supported-languages.html#supported-languages-contact-lens