[小ネタ] Bedrock呼び出し回数のアカウントクォータをサクッとコマンドで確認したい
こんにちは、クラウド事業本部 コンサルティング部の荒平(@eiraces)です。
表題の通り、検証や評価のタイミングでアカウントごとに設定されたBedrock呼び出し回数のクォータ値を確認したくなることがあると思います。
この値はアカウントごとに設定され、通常はマネジメントコンソールから「 On-demand InvokeModel requests per minute for 」などと検索して回数を把握することができます。
この作業を短縮するため、CloudShell, AWS CLIから確認してみたいと思います。
Bedrockクォータ単体を確認する(Shorthand)
以下のコマンドで確認が可能です。
--quota-code
には、各モデルごとのクォータIDが振られているので、対象のIDを確認してリクエストします。
aws service-quotas get-service-quota \
--service-code bedrock \
--region us-east-1 \
--quota-code L-79E773B3
上記例ではバージニア北部(us-east-1)にて確認を行っています。
リクエストするリージョンにモデルが存在しない場合はエラーになるので注意してください。
クォータコードは各クォータページに記載があります。
コマンド実行後、以下のようなレスポンスを確認します。ここで Value
に書かれた値がそのモデルに対するクォータ値です。
Adjustable
が false
になっている場合は、このクォータに対する引き上げ調整ができません。
{
"Quota": {
"ServiceCode": "bedrock",
"ServiceName": "Amazon Bedrock",
"QuotaArn": "arn:aws:servicequotas:us-east-1:xxxxxxxxxxxxx:bedrock/L-79E773B3",
"QuotaCode": "L-79E773B3",
"QuotaName": "On-demand InvokeModel requests per minute for Anthropic Claude 3.5 Sonnet V2",
"Value": 5.0,
"Unit": "None",
"Adjustable": false,
"GlobalQuota": false,
"QuotaAppliedAtLevel": "ACCOUNT",
"Description": "The maximum number of times that you can call model inference in one minute for Anthropic Claude 3.5 Sonnet V2. The quota considers the combined sum of Converse, ConverseStream, InvokeModel and InvokeModelWithResponseStream."
}
}
Bedrockクォータを一覧する
上記コマンドでは、Quota Codeを一つずつ確認する必要があり、目当てのモデルが1つならレスポンス速度の関係上優位ですが、全体的に確認したいときにやや不利でした。
そのため、以下のコマンドを実行し、対応モデルのクォータ一覧を確認します。
コマンドの実行にはおよそ1分程度掛かります。
aws service-quotas list-service-quotas \
--service-code bedrock \
--region us-east-1 | \
jq -r '.Quotas[] | select(.QuotaName | startswith("On-demand InvokeModel requests per minute for")) |
[.QuotaName, .QuotaCode, .Value, .Adjustable] | @tsv' | \
(echo -e "Quota Name\tQuota Code\tValue\tAdjustable" && cat) | \
column -t -s $'\t'
※ 上記コマンドでは us-east-1
を指定していますが、状況に合わせて変更してください。
執筆時点、かつ筆者アカウントでは、以下のような回答を得ました。アカウントクォータ、モデルの追加・削除状況によっては同じ出力にならないため注意が必要です。
Quota Name Quota Code Value Adjustable
On-demand InvokeModel requests per minute for Meta Llama 2 Chat 70B L-D11DCD9B 400.0 false
On-demand InvokeModel requests per minute for AI21 Labs Jamba Instruct L-40063291 100.0 false
On-demand InvokeModel requests per minute for Cohere Command Light L-B802A131 800.0 false
On-demand InvokeModel requests per minute for AI21 Labs Jamba 1.5 Large L-F4CAA0FD 100.0 false
On-demand InvokeModel requests per minute for Anthropic Claude 3.5 Sonnet L-254CACF4 50.0 false
On-demand InvokeModel requests per minute for Amazon Titan Text Lite L-A70F1DE3 800.0 false
On-demand InvokeModel requests per minute for Amazon Titan Text Embeddings L-879F6850 2000.0 false
On-demand InvokeModel requests per minute for Amazon Nova Canvas L-3F26CE29 100.0 false
On-demand InvokeModel requests per minute for Amazon Titan Text Premier L-F6E7D163 100.0 false
On-demand InvokeModel requests per minute for Cohere Command L-3B3BFACF 400.0 false
On-demand InvokeModel requests per minute for Mistral AI Mistral Small L-1CBB0490 400.0 false
On-demand InvokeModel requests per minute for Anthropic Claude 3.5 Sonnet V2 L-79E773B3 5.0 false
On-demand InvokeModel requests per minute for AI21 Labs Jamba 1.5 Mini L-0449ADC5 100.0 false
On-demand InvokeModel requests per minute for Amazon Titan Text Embeddings V2 L-26C560CE 2000.0 false
On-demand InvokeModel requests per minute for Meta Llama 2 Chat 13B L-674F621D 800.0 false
On-demand InvokeModel requests per minute for Mistral 7B Instruct L-D9A35062 800.0 false
On-demand InvokeModel requests per minute for AI21 Labs Jurassic-2 Mid L-75D9A33A 400.0 false
On-demand InvokeModel requests per minute for Anthropic Claude 3 Sonnet L-F406804E 500.0 false
On-demand InvokeModel requests per minute for Anthropic Claude Instant L-8CEDED9C 1000.0 false
On-demand InvokeModel requests per minute for Amazon Titan Image Generator G1 L-7DBB06FD 60.0 false
On-demand InvokeModel requests per minute for Stability.ai Stable Diffusion XL 0.8 L-3849F0B7 60.0 false
On-demand InvokeModel requests per minute for Meta Llama 2 70B L-D5C2E582 400.0 false
On-demand InvokeModel requests per minute for Meta Llama 2 13B L-0700C8EB 800.0 false
On-demand InvokeModel requests per minute for Amazon Titan Text Express L-9EAB0D12 400.0 false
On-demand InvokeModel requests per minute for Cohere Rerank 3.5 L-11512E58 250.0 false
On-demand InvokeModel requests per minute for Anthropic Claude V2 L-F3B698BE 500.0 false
On-demand InvokeModel requests per minute for Cohere Command R Plus L-ADB4B3D7 400.0 false
On-demand InvokeModel requests per minute for Cohere Command R L-A49CA90F 400.0 false
On-demand InvokeModel requests per minute for Mistral Mixtral 8x7b Instruct L-FD938632 400.0 false
On-demand InvokeModel requests per minute for Cohere Embed Multilingual L-9E5BD0C6 2000.0 false
On-demand InvokeModel requests per minute for Amazon Titan Multimodal Embeddings G1 L-DF0E34D4 2000.0 false
On-demand InvokeModel requests per minute for Cohere Embed English L-FF8E7864 2000.0 false
On-demand InvokeModel requests per minute for Mistral Large L-3AF844DB 400.0 false
On-demand InvokeModel requests per minute for Amazon Rerank 1.0 L-AAB0080F 200.0 false
On-demand InvokeModel requests per minute for Stability.ai Stable Diffusion XL 1.0 L-CC58F0A8 60.0 false
On-demand InvokeModel requests per minute for AI21 Labs Jurassic-2 Ultra L-A48E31B4 100.0 false
On-demand InvokeModel requests per minute for Anthropic Claude 3 Haiku L-2DC80978 1000.0 false
結構見やすくなりました!
おまけ
AWSのデフォルトクォータ値を確認して、対比をしたいこともあると思います。
執筆時点のモデル一覧、およびAWSデフォルトクォータ値を以下に記載します。
(バージニア北部&東京リージョンのみ記載)
Quota Name | Quota Code | us-east-1 | ap-northeast-1 | Adjustable |
---|---|---|---|---|
On-demand InvokeModel requests per minute for AI21 Labs Jamba 1.5 Large | L-F4CAA0FD | 100.0 | - | false |
On-demand InvokeModel requests per minute for AI21 Labs Jamba 1.5 Mini | L-0449ADC5 | 100.0 | - | false |
On-demand InvokeModel requests per minute for AI21 Labs Jamba Instruct | L-40063291 | 100.0 | - | false |
On-demand InvokeModel requests per minute for AI21 Labs Jurassic-2 Mid | L-75D9A33A | 400.0 | 400.0 | false |
On-demand InvokeModel requests per minute for AI21 Labs Jurassic-2 Ultra | L-A48E31B4 | 100.0 | 100.0 | false |
On-demand InvokeModel requests per minute for Amazon Nova Canvas | L-3F26CE29 | 100.0 | 100.0 | false |
On-demand InvokeModel requests per minute for Amazon Rerank 1.0 | L-AAB0080F | 200.0 | 200.0 | false |
On-demand InvokeModel requests per minute for Amazon Titan Image Generator G1 | L-7DBB06FD | 60.0 | 60.0 | false |
On-demand InvokeModel requests per minute for Amazon Titan Multimodal Embeddings G1 | L-DF0E34D4 | 2000.0 | 2000.0 | false |
On-demand InvokeModel requests per minute for Amazon Titan Text Embeddings | L-879F6850 | 2000.0 | 2000.0 | false |
On-demand InvokeModel requests per minute for Amazon Titan Text Embeddings V2 | L-26C560CE | 2000.0 | 2000.0 | false |
On-demand InvokeModel requests per minute for Amazon Titan Text Express | L-9EAB0D12 | 400.0 | 400.0 | false |
On-demand InvokeModel requests per minute for Amazon Titan Text Lite | L-A70F1DE3 | 800.0 | 800.0 | false |
On-demand InvokeModel requests per minute for Amazon Titan Text Premier | L-F6E7D163 | 100.0 | - | false |
On-demand InvokeModel requests per minute for Anthropic Claude 3 Haiku | L-2DC80978 | 1000.0 | 200.0 | false |
On-demand InvokeModel requests per minute for Anthropic Claude 3 Sonnet | L-F406804E | 500.0 | 100.0 | false |
On-demand InvokeModel requests per minute for Anthropic Claude 3.5 Sonnet | L-254CACF4 | 50.0 | 20.0 | false |
On-demand InvokeModel requests per minute for Anthropic Claude 3.5 Sonnet V2 | L-79E773B3 | 50.0 | - | false |
On-demand InvokeModel requests per minute for Anthropic Claude Instant | L-8CEDED9C | 1000.0 | 400.0 | false |
On-demand InvokeModel requests per minute for Anthropic Claude V2 | L-F3B698BE | 500.0 | 100.0 | false |
On-demand InvokeModel requests per minute for Cohere Command | L-3B3BFACF | 400.0 | 400.0 | false |
On-demand InvokeModel requests per minute for Cohere Command Light | L-B802A131 | 800.0 | 800.0 | false |
On-demand InvokeModel requests per minute for Cohere Command R | L-A49CA90F | 400.0 | 400.0 | false |
On-demand InvokeModel requests per minute for Cohere Command R Plus | L-ADB4B3D7 | 400.0 | 400.0 | false |
On-demand InvokeModel requests per minute for Cohere Embed English | L-FF8E7864 | 2000.0 | 2000.0 | false |
On-demand InvokeModel requests per minute for Cohere Embed Multilingual | L-9E5BD0C6 | 2000.0 | 2000.0 | false |
On-demand InvokeModel requests per minute for Cohere Rerank 3.5 | L-11512E58 | 250.0 | 250.0 | false |
On-demand InvokeModel requests per minute for Meta Llama 2 13B | L-0700C8EB | 800.0 | 800.0 | false |
On-demand InvokeModel requests per minute for Meta Llama 2 70B | L-D5C2E582 | 400.0 | 400.0 | false |
On-demand InvokeModel requests per minute for Meta Llama 2 Chat 13B | L-674F621D | 800.0 | 800.0 | false |
On-demand InvokeModel requests per minute for Meta Llama 2 Chat 70B | L-D11DCD9B | 400.0 | 400.0 | false |
On-demand InvokeModel requests per minute for Mistral 7B Instruct | L-D9A35062 | 800.0 | 800.0 | false |
On-demand InvokeModel requests per minute for Mistral AI Mistral Small | L-1CBB0490 | 400.0 | - | false |
On-demand InvokeModel requests per minute for Mistral Large | L-3AF844DB | 400.0 | - | false |
On-demand InvokeModel requests per minute for Mistral Mixtral 8x7b Instruct | L-FD938632 | 400.0 | 400.0 | false |
On-demand InvokeModel requests per minute for Stability.ai Stable Diffusion XL 0.8 | L-3849F0B7 | 60.0 | 60.0 | false |
On-demand InvokeModel requests per minute for Stability.ai Stable Diffusion XL 1.0 | L-CC58F0A8 | 60.0 | 60.0 | false |
※ クロスリージョン推論の場合はそのリージョンのクォータ適用を受けません
おわりに
本コマンドの実行には、ListServiceQuotas
および、GetServiceQuota
のIAM権限が必要です。(デフォルト値の獲得には GetAWSDefaultServiceQuota
も必要)
Claude系は執筆時点、東京リージョンでの利用をする場合にややクォータが抑えられています。分間リクエストが多いシステムを構築する場合は、バージニア北部・オレゴンなどの使用も検討しましょう。
このエントリが誰かの助けになれば幸いです。
それでは、クラウド事業本部 コンサルティング部の荒平がお送りしました!
参考