Amazon Lexの日本語ロケールで選択できる音声認識モデルを確認してみた
はじめに
Amazon Lex には、ボットの音声認識精度とパフォーマンスを最適化するために選択できる音声認識モデルが用意されています。ドキュメントでは以下の3つが説明されています。
-
標準モデル
- 一般的なユースケースで信頼性の高い音声認識パフォーマンスを提供します。幅広いオーディオ条件にわたって一貫した精度を提供し、ほとんどの会話 AI アプリケーションに適しています。
-
ニューラルモデル
- 精度を高め、自然な音声パターン、アクセント、バックグラウンドノイズをより適切に処理します。高度なニューラルネットワークアーキテクチャを使用して、特に困難なオーディオ環境で認識パフォーマンスを向上させます。
-
Deepgram
- Deepgram は、アカウントと API キーを作成するユーザー向けのパブリック speech-to-text(STT)API を提供します。
日本語ロケールでどの音声認識モデルが利用できるかについてドキュメントに記載がなかったため、確かめてみます。
設定画面の確認
マネジメントコンソールの Lex ボットで、ロケールを日本語に切り替えると、「音声モデルの環境設定」の設定内容は表示されているものの、編集ボタンが見当たりませんでした。

ただし、コンソールの表示言語を英語に切り替えると、

「Edit」ボタンが表示されました。

これはコンソールの表示不具合によるもので、日本語表示では編集ボタンが表示されない状態になっています。
「Edit」から選択可能なモデルを確認すると、以下の3つが表示されました。
- None
- Neural
- Deepgram

各モデルの詳細と日本語対応状況
各モデルの日本語ロケールでの対応状況を整理します。
None(指定なし)
「None」は「Standard(標準)」ではなく、モデルを指定しないことを意味します。「None」を選択した場合、Lex が自動的にモデルを選択します。
日本語ロケールでは「None」を設定した場合に自動的に「Neural」が使用されます。
Neural(ニューラル)
2024年12月のアップデートにより、日本語を含む多言語向けのニューラル ASR モデル(ASR-2.0)が一般提供されました。
Amazon Lex で新しい多言語ストリーミング音声認識モデル (ASR-2.0) の一般提供を開始したことをお知らせします。これらのモデルは、ポルトガル語、カタロニア語、フランス語、イタリア語、ドイツ語、スペイン語をサポートする欧州ベースのモデルと、中国語、韓国語、日本語をサポートするアジアパシフィックベースのモデルという 2 つの特殊なグループによって認識精度を向上させます。
https://aws.amazon.com/jp/about-aws/whats-new/2024/12/amazon-lex-multilingual-speech-recognition-models/
このモデルは特に英数字の認識に優れており、アカウント番号、確認番号、シリアル番号、製品コードをより正確に認識できます。また、非母語話者や地域アクセントへの対応も向上しています。
日本語ロケールのデフォルトモデルは「Neural」となっており、従来のモデルより認識精度が改善されています。
一方、英語ロケール向けには2026年1月に別途、英語専用のニューラル ASR モデルの提供が開始されています。こちらは複数の英語ロケールのデータに基づいてトレーニングされており、地域アクセントや非母語話者の発話パターンの認識に優れています。
Amazon Lex launches improved speech recognition models for English
Amazon Lex で、音声ボットの認識精度を向上させる、英語向けのニューラル自動音声認識 (ASR) モデルの提供が開始されました。
https://aws.amazon.com/about-aws/whats-new/2026/01/amazon-lex-improved-speech-recognition-models-english/
Deepgram
Deepgram は、Deepgram のアカウントと API キーを作成して利用する外部の speech-to-text サービスです。セットアップには API トークンの設定が別途必要です。
日本語ロケールで選択可能なモデルの整理
確認の結果、日本語ロケールで選択可能なモデルは以下の通りです。
| モデル | 日本語ロケールでの利用 | 備考 |
|---|---|---|
| None | 利用可能 | モデル指定なし。日本語ロケールでは Neural が自動選択される |
| Standard(標準) | 利用不可 | |
| Neural(ニューラル) | 利用可能 | 日本語のデフォルトモデル |
| Deepgram | 利用可能 | 別途アカウントと API キーが必要 |
Amazon Connect 連携時の設定について
Amazon Connect と連携して電話経由で音声入力を受け付けるユースケースでは、日本語ロケールにおける Lex の標準機能の選択肢は「Neural」のみとなります。
「Standard(標準)」は日本語ロケールでは選択できないためです。
外部サービスである Deepgram を使用しない限り、日本語ロケールでは Neural を使用することになります。







