
Amazon Connectで音声モデルNova Sonicが利用できるようになったのでQ in Connectセルフサービスで試してみた #AWSreInvent
はじめに
Amazon Connectにて、音声モデルAmazon Nova Sonicが利用できるようになりました。
Amazon Nova Sonicは、音声データをインプットとして音声やテキストを生成する音声基盤モデルです。Amazon Connectとの統合により、より自然で表現力豊かな音声体験を提供できるようになりました。
日本語訳:Amazon Connect は、AI エージェントが音声およびメッセージングチャネル全体で理解、推論、アクションを実行し、日常的かつ複雑なカスタマーサービスタスクを自動化できるようにするエージェントセルフサービス機能を導入します。Connect を使用すると、決定論的エクスペリエンスとエージェントエクスペリエンスを融合し、これらの AI エージェントを大規模かつ確実かつ安全に導入できます。Amazon Nova Sonic の高度な音声モデルとの統合により、音声セルフサービスエクスペリエンスはより自然で適応性の高いインタラクションを提供します。Connect のセルフサービス音声 AI エージェントは、顧客の発言内容だけでなく、その表現方法も理解します。複数の言語やアクセントにおいて自然な会話ペースを維持しながら、顧客の口調や感情に合わせて音声応答を調整します。例えば、顧客が注文に関する問題について電話をかけてきた場合、AI エージェントは顧客の口調に合わせて、会話全体を通して表現豊かに応答する音声インタラクションで、名前で挨拶し、説明を求める、注文状況を確認する、返金処理などを行うことができます。これにより、コンタクトセンターは複雑なトラブルシューティング、アカウント管理、コンサルティングインタラクションを自動化しながら、いつでもライブエージェントにエスカレーションする機能を維持できます。
Amazon Nova Sonicの適用範囲
上記のアップデート情報にはAIエージェントセルフサービス機能について記載されていますが、今回利用可能となったAmazon Nova Sonicは、あくまでも「自然で表現力豊かな音声出力」を提供する音声モデルです。AIエージェントセルフサービス機能を利用する場合は、別途Amazon Q in Connectセルフサービスを利用する必要があります。
また、Amazon Nova Sonicは、Amazon Lexボットからの応答音声のみに適用されます。「プロンプトの再生」ブロックなど、他のブロックからの音声出力では利用できません。
Connectフローにおける適用範囲は以下のとおりです。
- Nova Sonicが適用される: Lexボットからの応答音声
- Nova Sonicが適用されない: 以下の音声出力(従来どおりAmazon Pollyを使用)
- 「プロンプトの再生」ブロックによる音声出力
- 「顧客の入力を取得する」ブロックにおけるDTMF入力時のプロンプト音声
- その他、Lexボット以外による音声出力全般
対応リージョンと言語
Nova Sonicの音声サポートは、現在、バージニア北部リージョンとオレゴンリージョンで利用可能です。
対応言語は以下のとおりです。
- 一般提供:英語、スペイン語
- プレビュー:フランス語、イタリア語、ドイツ語
今回は、オレゴンリージョンでAmazon Q in Connectセルフサービスを使用し、英語で動作を確認します。
事前準備
Amazon Q in Connectを有効にし、ナレッジベース(統合)を作成する方法については、以下のブログを参考にしてください。
AIエージェントは、デフォルトの設定を使用します。

Lexボット
Lexボットでは、以下の設定を有効化して作成します。
- 音声モデル:Speech-to-Speech: Amazon Nova Sonic
- Amazon Connect AIエージェントのインテント

今回はログ出力も有効化します。
Connectフロー
全体のフローは以下の通りです。
Amazon Q in Connectセルフサービスを利用する一般的なフロー構成です。

Nova Sonicでは、以下の音声がサポートされています。
- Matthew (en-US, Masculine)
- Amy (en-GB, Feminine)
- Olivia (en-AU, Feminine)
- Lupe (es-US, Feminine)
今回は、音声の設定でMatthewを選択します。
また、「その他の設定」で、「発話スタイルを上書き」を選択し、「ジェネレーティブ」選択をする必要があります。

「顧客の入力を取得する」ブロックでは、先ほど設定したLexボットを呼び出します。

動作確認
実際に電話をかけて動作を確認しました。普段から従来の音声に慣れていないこともあり、明確な違いを感じにくい部分もありましたが、全体として流暢で自然な発話だと感じました。
Nova Sonicが適用されたかどうかは、Lexログから確認できました。以下のログでspeechFoundationModelがNOVA_SONICとなっていることが確認できます。
~中略~
"inputMode": "Speech",
"responseReason": "UtteranceResponse",
"bargeIn": "false",
"operationName": "StartConversation",
"isTestWorkbenchTraffic": false,
"speechFoundationModel": "NOVA_SONIC",
ただし、CTRやConnectフローログでは、Nova Sonicの使用状況を確認できませんでした。
日本語対応が待ち遠しいです。
最後に
Amazon ConnectでAmazon Nova Sonicが利用可能となり、Lexボットからの応答音声がより自然で表現力豊かになりました。
ただし、適用範囲はLexボットの応答音声のみに限定されており、プロンプトの再生ブロックなど他の音声出力には適用されない点に注意が必要です。
現在は英語とスペイン語が一般提供されていますが、今後の日本語対応に期待したいところです。
参考









