Amazon Q in ConnectのAIエージェントでClaude Sonnet 4.5とHaiku 4.5が利用できるようになりました
はじめに
What's NewやAWSドキュメントには記載されていませんが、東京リージョンのAmazon Q in ConnectのAIエージェントで、Claude Sonnet 4.5とClaude Haiku 4.5が選択できるようになりました。
従来、東京リージョンのAmazon Q in Connectで選択できるモデルは以下の6つでした。
- anthropic.claude-3-haiku-20240307-v1:0
- apac.amazon.nova-lite-v1:0
- apac.amazon.nova-pro-v1:0
- apac.amazon.nova-micro-v1:0
- apac.anthropic.claude-3-5-sonnet-20241022-v2:0
- apac.anthropic.claude-3-haiku-20240307-v1:0
- apac.anthropic.claude-sonnet-4-20250514-v1:0
今回、グローバル版の以下の2つのモデルが利用可能になりました。
- global.anthropic.claude-haiku-4-5-20251001-v1:0
- global.anthropic.claude-sonnet-4-5-20250929-v1:0
本記事では、以下の記事を参考に、東京リージョンのAmazon Q in Connectセルフサービスにて、AIプロンプトを利用したAIエージェントでモデル別のレスポンス速度を検証します。
利用可能なモデルの確認
プロンプトタイプSELF_SERVICE_PRE_PROCESSINGにて、各モデルを選択できることを確認しました。
今回のアップデートで追加された以下のモデルも選択可能です。
- global.anthropic.claude-haiku-4-5-20251001-v1:0
- global.anthropic.claude-sonnet-4-5-20250929-v1:0

レスポンス速度の検証
参考記事で紹介されているFOLLOW_UP_QUESTIONツールを利用して検証を行いました。このツールは、デフォルトツールやカスタムツールと連動し、適切なアクションを実行する前に必要な情報を段階的に収集できます。
今回は、1つずつヒアリングすると速度計測の差が出にくかったため、「複数情報の一括入力(5項目を一度に伝える)」で検証しました。使用チャネルはチャットです。自動回答は行わず、FOLLOW_UP_QUESTIONツールを選択した際のレスポンス速度を計測しました。
以下の記事を参考に、Amazon Q in Connectのログを有効化し、ログからレスポンス時間を算出しました。
ここでのレスポンス時間は「Q in Connectへの発話から回答が生成されるまで」を指し、Amazon Lexとのやり取り(Text-to-Speech等)にかかる時間は含みません。
なお、結果はAIプロンプトの内容などによって変わるため、参考値としてご確認ください。
検証結果
今回のアップデートで利用可能になったモデルを含め、Amazon Q in Connectのエージェントで応答速度の比較を行いました。結果は以下のとおりです。
3秒
- global.anthropic.claude-haiku-4-5-20251001-v1:0(クロスリージョン)
- apac.anthropic.claude-3-haiku-20240307-v1:0(クロスリージョン)
3.5秒
- apac.amazon.nova-pro-v1:0(クロスリージョン、システムのデフォルト)
4秒
- apac.anthropic.claude-sonnet-4-20250514-v1:0(クロスリージョン)
5秒
- global.anthropic.claude-sonnet-4-5-20250929-v1:0(クロスリージョン)
Sonnet 4.5が遅い理由
最新かつ高性能なSonnet 4.5(Global)が、旧世代のSonnet 4(APAC)よりも1秒遅いという結果になりました。直感的には新しいモデルの方が速そうに思えますが、これにはAWS Bedrockの「推論プロファイル」と「モデルの性質」という2つの側面から明確な理由が推測できます。
物理的な距離とルーティングの仕組み
推論が実行されるリージョンの違いが考えられます。
Sonnet 4(APAC)では、アジア太平洋リージョン(東京、シンガポールなど)のサーバーが優先的に使用されます。日本からアクセスする場合、物理的な距離が近いためレイテンシが最小限に抑えられます。
一方、Sonnet 4.5(Global)では、「グローバルクロスリージョン推論」により、世界中のAWSリージョンから空いているリソースが動的に選択されます。
AWSの公式ブログでは、このGlobal推論のルーティングについて以下のように説明されています。
Intelligent request routing
(...) Although the system prioritizes availability, it also takes latency into account. By default, the service attempts to fulfill requests from the source Region when possible, but it can seamlessly route requests to other Regions as needed.(意訳:システムは可用性を優先しますが、レイテンシも考慮します。デフォルトでは可能な限りソースリージョンからのリクエスト処理を試みますが、必要に応じて他のリージョンへシームレスにリクエストをルーティングします。)
つまり、「最速で返すこと」よりも「可用性(空いていること)」が優先される仕組みです。Sonnet 4.5はリリース直後で世界的に需要が高いため、混雑を避けて遠方(米国や欧州など)のリージョンにリクエストが飛ばされ、その分の通信時間が上乗せされたと考えられます。
モデルの複雑さと処理時間
モデル自体の処理時間の影響も考えられます。
Sonnet 4.5はSonnet 4に比べて推論能力が大幅に向上しており、より複雑な思考や計算を行っています。一般的にモデルのパラメータ数が増え、賢くなればなるほど、トークン生成にかかる計算時間は増加する傾向にあります。
一方で、Haiku 4.5は「Global」でありながら3秒と最速クラスの応答速度を実現しています。これは、モデル自体が軽量・高速に設計されているため、レイテンシによる影響を最小限に抑えられた結果と考えられます。
最後に
Amazon Q in ConnectのAIエージェントで、Claude Sonnet 4.5とClaude Haiku 4.5が利用可能になりました。
今回の検証では、最新モデルのSonnet 4.5は高性能である一方、グローバルクロスリージョン推論の仕組みにより、APAC版のSonnet 4よりもレスポンス速度が遅くなる可能性があることがわかりました。一方、Haiku 4.5は軽量設計により、Globalモデルでありながら最速クラスの応答速度を実現しています。
なお、Amazon Q in Connectでは、モデルによるコスト差はありません。チャネルが電話の場合、通話1分あたりのAmazon Q in Connect料金がかかります。
用途に応じて、性能重視であればSonnet 4.5、速度重視であればHaiku 4.5やAPAC版モデルを選択するとよいでしょう。







