Amazon Connectパフォーマンス評価で生成AIを活用した自動評価が日本語対応しました

2026.04.16
 はじめにAmazon Connectのパフォーマンス評価機能では、事前に作成した評価フォームを利用し、機械学習を用いたスコアリングや、エージェントの会話内容の評価を行うことができます。
エージェントが顧客対応完了後にコンタクトの評価フォームへ回答すると、評価スコアが算出されます。これにより、管理者はスコアの低いコンタクトを対応したエージェントに対して、迅速にフォローアップできるようになります。
生成AIを活用した自動評価機能については、以前、日本語の会話でも自動評価が実行できるのかを検証しました。
https://dev.classmethod.jp/articles/amazon-connect-ai-performance-evaluation-japanese/
当時は、会話が日本語でも評価理由は英語で出力されていました。今回、管理コンソールを確認したところ、評価フォームの [フォーム言語] に日本語を設定できるようになっていたため、改めて確認してみます。
なお、AWSドキュメントには日本語サポートの説明がまだ反映されていませんでした。ドキュメントの更新はこれからのようです。
https://docs.aws.amazon.com/connect/latest/adminguide/generative-ai-performance-evaluations.html
今回は、上記のブログで作成した評価フォームを日本語に変更し、同じ会話内容でどのような評価結果になるかを確認してみます。
 評価フォーム以下の記事で紹介した評価フォームを利用します。
https://dev.classmethod.jp/articles/amazon-connect-ai-performance-evaluation-japanese/
この評価フォームの [フォーム言語] を日本語に設定し、有効化しました。
 評価対象の会話内容今回評価対象とした顧客対応の会話内容をご紹介します。会話内容は生成AIで作成したサンプルです。
 チャット対応例：商品未着に関するお問い合わせエージェント: こんにちは。この度は弊社カスタマーサポートにお問い合わせいただき、ありがとうございます。私、サポート担当の田中と申します。本日はどのようなご用件でしょうか？
顧客: こんにちは。3日前に注文した商品がまだ届かないんです。追跡番号も教えてもらっていないし、どうなっているのか心配で...
エージェント: ご心配をおかけして申し訳ございません。商品の配送状況について確認させていただきますね。恐れ入りますが、ご注文番号をお教えいただけますでしょうか？
顧客: 注文番号は ORD-240315-0023 です。
エージェント: ありがとうございます。確認いたします。少々お待ちください。
エージェント: お待たせいたしました。ORD-240315-0023のご注文を確認いたしました。こちら、3月15日にご注文いただいた「ワイヤレスイヤホン（ブラック）」ですね。
顧客: そうです、それです。
エージェント: 申し訳ございません。システムを確認したところ、配送業者の都合により配送が遅延しており、通常3-5営業日のところ、追加で2-3日かかる見込みです。また、追跡番号のご連絡が漏れておりました。深くお詫び申し上げます。
顧客: えー、そんなに遅れるんですか？プレゼント用だったのに...もう間に合わないじゃないですか！
エージェント: 大変申し訳ございません。プレゼント用でいらっしゃったのですね。このような状況になってしまい、心からお詫び申し上げます。
顧客: どうしてくれるんですか？もうプレゼントする日は過ぎてしまいました。
エージェント: 本当に申し訳ございません。お客様にご迷惑をおかけしたお詫びとして、以下の対応をご提案させていただけませんでしょうか？
商品代金の全額返金
今回の商品は無償でお届け（到着時期は1週間後見込み）
次回ご注文時に使える20%OFFクーポンの発行
いかがでしょうか？
顧客: そうですね...返金していただけるなら助かります。商品の方はもう必要ないので、返金でお願いします。
エージェント: 承知いたしました。それでは返金手続きを進めさせていただきます。ご注文時のクレジットカードへの返金で宜しいでしょうか？
顧客: はい、お願いします。
エージェント: ありがとうございます。返金処理を完了いたしました。通常3-5営業日でお客様のカードに返金が反映されます。また、商品につきましては配送をキャンセルし、到着次第こちらで処理いたします。お受け取りいただく必要はございません。
顧客: わかりました。ありがとうございます。
エージェント: この度は、ご注文いただいた商品の配送遅延により、ご迷惑をおかけして誠に申し訳ございませんでした。今後このようなことがないよう、配送管理の改善に努めてまいります。
他にご不明な点やご質問はございませんでしょうか？
顧客: いえ、大丈夫です。対応していただき、ありがとうございました。
エージェント: こちらこそ、貴重なお時間をいただきありがとうございました。今後ともどうぞよろしくお願いいたします。それでは、チャットを終了させていただきます。失礼いたします。
 動作確認前回、[フォーム言語] を英語にして評価した結果は以下です。
https://dev.classmethod.jp/articles/amazon-connect-ai-performance-evaluation-japanese/#%25E3%2582%25BB%25E3%2582%25AF%25E3%2582%25B7%25E3%2583%25A7%25E3%2583%25B31%253A-%25E6%258C%25A8%25E6%258B%25B6%25E3%2583%25BB%25E9%2596%258B%25E5%25A7%258B%25E5%25AF%25BE%25E5%25BF%259C-1
スコアは100%でした。
同じ評価フォームを利用する場合、異なるバージョンであっても複数回評価を実行できないため、前回の評価結果を削除しました。
評価を実行したところ、[フォーム言語]が日本語の場合、スコアは93.3%でした。
 評価結果の比較今回の日本語評価では、全体スコアは93.3%となりました。前回の英語フォームでは100%だったため、同じ会話内容でも評価結果に差分が出ています。
差分があったのは主に以下の2項目です。
2.3 エージェントは解決策を顧客に分かりやすく説明しましたか
英語フォームでは満点評価
日本語フォームでは「ある程度分かりやすく説明」と判定


4.1 エージェントは必要な手順やプロセスを遵守しましたか
英語フォームでは満点評価
日本語フォームでは「概ね遵守」と判定


それ以外の項目は大きく変わっておらず、今回のスコア差はこの2問の判定差によるものと見てよさそうです。
 なぜ点数が異なったのか今回差分が出た 2.3 と 4.1 の評価者向け手順は、前回の記事で紹介した評価フォームの内容をそのまま利用しています。評価フォーム全体の詳細は、前回の記事をご参照ください。
今回の結果を見ると、日本語フォームでは、返金や配送キャンセルといった解決内容自体は認識できている一方で、説明の分かりやすさ や 顧客の理解確認 まで含めて、より厳密に判定しているように見えました。
2.3 では、解決策を顧客が理解しやすい言葉で説明できていたかが見られており、4.1 では、解決策の説明だけでなく、顧客の理解確認までできていたかが評価対象になっています。今回の会話では案内自体はできていましたが、その点がやや厳しめに見られた結果、1段階低い評価になったと考えられます。
つまり、評価結果の差は日本語対応そのものというより、評価者向け手順に沿って、より厳密に採点された結果 と見るのが自然そうです。今後さらに評価を安定させたい場合は、満点条件をもう少し具体的に書いておくと、判定のブレを抑えやすくなりそうです。
https://docs.aws.amazon.com/connect/latest/adminguide/generative-ai-performance-evaluations.html
 英語フォームとの違い前回との一番大きな違いは、AIが生成した回答や理由が日本語で表示されるようになっていたことです。以前は、日本語の会話を評価しても「AIが生成した回答」は英語で表示されていましたが、今回は評価理由の本文も日本語で確認できました。
一方で、Here are some transcript references... のような英語の定型文は一部残っていました。このあたりは採点結果そのものというより、表示まわりのローカライズがまだ完全ではないだけに見えます。
今回、日本語での回答表示までは対応されたため、今後のアップデートでこのような細かい表記も順次改善されていきそうです。
 最後にAmazon Connectパフォーマンス評価の生成AI自動評価について、日本語フォームで再検証してみました。
今回の確認では、日本語でも評価理由が自然に表示されるようになっており、日本語対応が進んでいることを確認できました。
説明の分かりやすさやプロセス遵守のような設問は、評価者向け手順の書き方によって判定が変わりやすそうです。

日本語対応に合わせて、評価フォーム側の基準も少し見直していくと、より安定した自動評価ができそうだと感じました。