Vertex AIのModel GardenでClaudeを使ってみた

2026.04.06

 はじめにこんにちは。

クラウド事業本部コンサルティング部の渡邉です。
最近、Claudeについての相談をお客様から頂くことがあります。

Claudeを利用される場合は、AWSだったらBedrock経由で利用することができますし、Anthropicとの直契約だったりいろいろ利用手段があるかと思います。
今回は、Google CloudでもVertex AI経由でClaudeを利用することができることを紹介したくこの記事を書いています。
Vertex AIでは、Model Gardenを利用することで、Googleのモデルだけでなく、Anthropic の Claude シリーズも Managed API Service（MaaS）として利用できます。MaaSとして利用することで、インフラを一切管理することなく、API を呼び出すだけで Claude の高い推論能力を活用できる点が大きな特徴です。
 Vertex AIでのClaude利用Vertex AI の Model Garden では、Anthropic の Claude モデルが MaaS（Model as a Service） として提供されています。MaaS 形式のため、以下の特徴があります。


項目
内容


インフラ管理
不要（フルマネージド）

料金体系
従量課金（Pay as you go）または Provisioned Throughput

認証
Google Cloud の Application Default Credentials（ADC）を利用

コンプライアンス
FedRAMP High 準拠

ストリーミング
Server-Sent Events（SSE）によるレスポンスストリーミングに対応

Claude モデルを Vertex AI 経由で利用することで、既存の Google Cloud のセキュリティ・ガバナンス・IAM と統合した形で AI 機能を組み込むことができます。
 利用可能なモデル一覧2026 年 4 月時点で、Vertex AI では以下の Claude モデルが利用可能です。


モデル名
Vertex AI モデル ID
状態


Claude Opus 4.6
claude-opus-4-6
GA

Claude Sonnet 4.6
claude-sonnet-4-6
GA

Claude Opus 4.5
claude-opus-4-5
GA

Claude Opus 4.1
claude-opus-4-1
GA

Claude Opus 4
claude-opus-4
GA

Claude Sonnet 4.5
claude-sonnet-4-5
GA

Claude Sonnet 4
claude-sonnet-4
GA

Claude Haiku 4.5
claude-haiku-4-5
GA

Claude 3.7 Sonnet
claude-3-7-sonnet
非推奨（2026/05/11 シャットダウン予定）

Claude 3.5 Haiku
claude-3-5-haiku
非推奨（2026/07/05 シャットダウン予定）

Claude 3 Haiku
claude-3-haiku
非推奨（2026/08/23 シャットダウン予定）

!Claude 3.5 Sonnet v2（claude-3-5-sonnet-v2）は 2026/02/19 にシャットダウン済みのため、新規利用はできません。
 利用可能なリージョンClaude モデルは グローバルエンドポイント、米国リージョン、欧州リージョン、アジア太平洋リージョン で利用できます。


エンドポイント種別
リージョン
対象モデル


Global
global
Claude 4.x 系・Claude 3.7 Sonnet・Claude 3.5 系の主要モデル

米国
us-east5（Columbus）他 US 全リージョン
全 Claude モデル

欧州
europe-west1（Belgium）
Claude 4.x 系（Opus 4.6 / Sonnet 4.6 / Opus 4.5 / Sonnet 4.5 / Haiku 4.5 等）

アジア太平洋
asia-southeast1（Singapore）
Claude 4.x 系（Opus 4.6 / Sonnet 4.6 / Opus 4.5 / Sonnet 4.5 / Haiku 4.5 等）

!日本リージョン（asia-northeast1 等）は現時点では非対応なのがつらい点です。。。ニーズはあると思うので、早めに対応してほしいです。
 グローバルエンドポイントとリージョナルエンドポイントの違いAPIを呼び出す際のグローバルエンドポイントとリージョナルエンドポイントの違いについて以下にまとめます。


項目
グローバルエンドポイント
リージョナルエンドポイント


リクエスト処理場所
モデルがサポートする任意のリージョン（制御不可）
指定したリージョン

可用性・エラー率
高可用性・429 エラー低減に有効
リージョン単体の可用性に依存

レイテンシ
場合によって高くなる可能性あり
指定リージョンに近い場合は低レイテンシ

データレジデンシー
非対応（処理リージョン保証なし）
対応可能

Provisioned Throughput
非対応
対応

リクエスト・レスポンスログ記録
非対応（リージョナルエンドポイントを使用）
対応

Prompt Caching
対応
対応

クォータ
リージョナルとは別枠（独立したクォータ）
リージョンごとのクォータ

エンドポイント URL
https://aiplatform.googleapis.com/...
https://{REGION}-aiplatform.googleapis.com/...

SDK 指定
region="global"
region="us-east5" 等

エンドポイントの使い分けとしては、以下の方針が取れると思います。
グローバルエンドポイントを選ぶ場合: 高可用性が必要、429 エラーを減らしたい、データレジデンシー要件がない
リージョナルエンドポイントを選ぶ場合: データレジデンシー要件がある、Provisioned Throughput を使いたい、処理リージョンを明示的に制御したい
 クォータ クォータの概要Claude モデルのクォータは QPM（Queries Per Minute） と TPM（Tokens Per Minute） で管理されます。TPM は入力・出力トークンをそれぞれ個別に計測するモデルと、合算で計測するモデルがあります。
クォータはリージョンごとに独立しており、グローバルエンドポイント用の独立したクォータも存在します。
!Google Cloud コンソールの「クォータ」ページに表示されるトークン使用量が不正確な場合があります。正確なトークン使用量の確認には、count-tokensエンドポイント へアクセスするか、Metrics Explorer の token_count メトリクスを使用してください。
 デフォルトクォータ（2026 年 4 月時点）

モデル
リージョン
QPM
入力 TPM
出力 TPM
コンテキスト長


Claude Opus 4.6
us-east5
200
2,000,000
200,000
1,000,000


europe-west1
200
2,000,000
200,000
1,000,000


asia-southeast1
200
2,000,000
200,000
1,000,000


global
400
4,000,000
400,000
1,000,000

Claude Sonnet 4.6
us-east5
1,500
1,500,000
150,000
1,000,000


europe-west1
1,800
1,800,000
180,000
1,000,000


asia-southeast1
1,500
1,500,000
150,000
1,000,000


global
1,500
1,500,000
150,000
1,000,000

Claude Opus 4.5
us-east5
200
2,000,000
200,000
200,000


europe-west1
200
2,000,000
200,000
200,000


asia-southeast1
200
2,000,000
200,000
200,000


global
400
4,000,000
400,000
200,000

Claude Sonnet 4.5
us-east5
1,500
1,500,000
150,000
200,000（GA）/ 1,000,000（beta）


europe-west1
1,800
1,800,000
180,000
200,000（GA）/ 1,000,000（beta）


asia-southeast1
1,500
1,500,000
150,000
200,000（GA）/ 1,000,000（beta）


global
1,500
1,500,000
150,000
200,000（GA）/ 1,000,000（beta）

Claude Haiku 4.5
us-east5
1,500
1,500,000
150,000
200,000


europe-west1
1,800
1,800,000
180,000
200,000


asia-east1
2,500
2,500,000
250,000
200,000


global
2,500
2,500,000
250,000
200,000

Claude Opus 4.1
us-east5
25
60,000
6,000
200,000


global
25
60,000
6,000
200,000

Claude Opus 4
us-east5
25
60,000
6,000
200,000


global
25
60,000
6,000
200,000

Claude Sonnet 4
us-east5
35
280,000
20,000
1,000,000


europe-west1
25
180,000
20,000
1,000,000


asia-east1
70
550,000
50,000
1,000,000


global
35
276,000
24,000
1,000,000

入力 TPM のカウント対象は キャッシュ未使用トークンとキャッシュ書き込みトークンの合計（キャッシュヒットトークンは含まない）です。
 クォータ名（Google Cloud コンソール）Google Cloud コンソールの「クォータと上限」ページで確認・編集できるクォータ名は以下のとおりです。


用途
クォータ名


QPM（リージョナル）
online_prediction_requests_per_base_model

QPM（グローバル）
global_online_prediction_requests_per_base_model

入力 TPM（リージョナル）
online_prediction_input_tokens_per_minute_per_base_model

入力 TPM（グローバル）
global_online_prediction_input_tokens_per_minute_per_base_model

出力 TPM（リージョナル）
online_prediction_output_tokens_per_minute_per_base_model

出力 TPM（グローバル）
global_online_prediction_output_tokens_per_minute_per_base_model

 クォータの引き上げデフォルトクォータで不足する場合は、Google Cloud コンソールからクォータ引き上げをリクエストできます。
クォータと上限 ページを開く
対象のクォータを検索し、行末の「…」から「クォータを編集」を選択
新しい値を入力して「リクエストを送信」
 Vertex AIでClaudeを利用してみた 前提条件Google Cloud プロジェクトが作成済みであること
gcloud CLI がインストール・認証済みであること
Vertex AI API が有効化済みであること
 ステップ 1: Vertex AI API を有効化するまずはVertex AIを利用したいプロジェクトでVertex AIのAPIを有効化します。
gcloud services enable aiplatform.googleapis.com --project=${GOOGLE_CLOUD_PROJECT}
 ステップ 2: Model Garden でモデルを有効化するVertex AI の Claude モデルは、Model Garden のモデルカードから個別に有効化する必要があります。
Cloud Consoleから「Vertex AI」 -> 「Model Garden」をクリックしてください。

Model Gardenに遷移したあと、モデルコレクションから「パートナーのモデル」をクリックします。
Claude Sonnet 4.6
を選択し、「有効にする」をクリックして有効化します。
「有効にする」をクリックすると
This third party model is licensed from Anthropic and is provided under Anthropic's terms of service.
とAnthropicとの利用規約への同意が求められます。
必要情報を入力して同意するとモデルが使用可能になります。
 ステップ 3: ログ記録の設定!リクエスト・レスポンスのログ記録機能は 2026 年 4 月時点で Preview です。
Anthropic は、モデルの誤用を検知するためにプロンプトと補完の30日間ログ記録を有効化することを推奨しています。
ロギングは REST API で設定します（Anthropic モデルは Python SDK 非対応）。ログの保存先に BigQuery テーブルを指定します。
!グローバルエンドポイントではログ記録が機能しませんでした（2026年4月時点）。
公式ドキュメントにはグローバルエンドポイントでのロギング制限の記載はなく、setPublisherModelConfig でロギングを有効化し fetchPublisherModelConfig で enabled: true を確認できますが、実際にはリクエストを送っても BigQuery にログが記録されません。
筆者が実際にトラブルシューティングを行い確認した現象です。リージョナルエンドポイント（us-east5 等）では正常にログが記録されるため、ロギングを使用する場合はリージョナルエンドポイントを使用してください。
 BigQuery データセットの作成テーブルは自動作成されますが、データセットは事前に作成が必要です。us-east5 リージョンを使用する場合は US ロケーションを指定します。
bq mk --location=US --dataset ${GOOGLE_CLOUD_PROJECT}:vertex_ai_logs
 ロギングの有効化$ curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  -d '{
    "publisherModelConfig": {
      "loggingConfig": {
        "enabled": true,
        "samplingRate": 1.0,
        "bigqueryDestination": {
          "outputUri": "bq://${GOOGLE_CLOUD_PROJECT}.vertex_ai_logs"
        },
        "enableOtelLogging": true
      }
    }
  }' \
  "https://us-east5-aiplatform.googleapis.com/v1beta1/projects/${GOOGLE_CLOUD_PROJECT}/locations/us-east5/publishers/anthropic/models/claude-sonnet-4-6:setPublisherModelConfig"
samplingRate は 0 ～ 1 の値で、1.0 で全リクエストをログ記録します。テーブル名（request_response_logging）は自動作成されます。
 ロギング設定の確認$ curl -X GET   -H "Authorization: Bearer $(gcloud auth print-access-token)"   "https://us-east5-aiplatform.googleapis.com/v1beta1/projects/${GOOGLE_CLOUD_PROJECT}/locations/us-east5/publishers/anthropic/models/claude-sonnet-4-6:fetchPublisherModelConfig"
{
  "loggingConfig": {
    "enabled": true,
    "samplingRate": 1,
    "bigqueryDestination": {
      "outputUri": "bq://${GOOGLE_CLOUD_PROJECT}.vertex_ai_logs.request_response_logging"
    },
    "enableOtelLogging": true
  }
}
詳細は

https://cloud.google.com/vertex-ai/generative-ai/docs/multimodal/request-response-logging

を参照してください。
 実際に試してみた Vertex AI Studio で呼び出すGoogle Cloud Console 画面からVertex AI Studioを利用するのが一番簡単にClaudeを利用する方法です。

チャットベースのUIなので、Geminiをすでに利用されている方は抵抗なく利用することができるかと思います。

モデルとしてAnthropic Claude Sonnet 4.6を選択することで、Anthropic Claude Sonnet 4.6を利用した対話が実現できます。
 Anthropic SDK（Python）で呼び出すAnthropic が提供する anthropic[vertex] パッケージを使うと、Vertex AI 向けの認証・エンドポイント設定を自動で処理してくれます。
まずパッケージをインストールします。
pip install -U 'anthropic[vertex]'
次に Application Default Credentials を設定します。
gcloud auth application-default login
以下のコードで Claude Sonnet 4.6 にリクエストを送ります。
claude-test.py
from anthropic import AnthropicVertex

PROJECT_ID = "your-project-id"  # Google Cloud プロジェクト ID に置き換える

client = AnthropicVertex(project_id=PROJECT_ID, region="global")

message = client.messages.create(
    model="claude-sonnet-4-6",
    max_tokens=1024,
    messages=[
        {"role": "user", "content": "Vertex AI 経由で Claude に送ったメッセージです。自己紹介をしてください。"}
    ],
)

print(message.content[0].text)
レスポンスの確認
$ python claude-test.py 
# 自己紹介

こんにちは！私は **Claude**（クロード）です。**Anthropic**（アンソロピック）という AI 安全性研究会社によって作られた AI アシスタントです。

## 私についての基本情報

- 🤖 **名前**: Claude
- 🏢 **開発元**: Anthropic
- 🌐 **アクセス方法**: 今回は **Google Cloud の Vertex AI** 経由でご利用いただいています
- 📅 **知識のカットオフ**: 2025年初頭頃まで

## 私にできること

- 💬 自然な会話・質問への回答
- 📝 文章の作成・編集・要約
- 💻 プログラミングのサポート
- 🔍 情報の分析・調査
- 🌏 多言語対応（日本語ももちろん対応！）
- 🧠 複雑な問題の論理的な整理

## 私のモットー

**正確で、誠実で、役に立つ**アシスタントであることを心がけています。わからないことは「わからない」と正直にお伝えします。

---

何かお手伝いできることがあれば、お気軽にどうぞ！😊
グローバルエンドポイントは可用性向上・エラー率低減に効果的ですが、レイテンシが高くなる場合があります。
 REST API で呼び出すSDK を使わず、直接 REST API（rawPredict）でも呼び出せます。ロギングを使用する場合はリージョナルエンドポイントを指定してください。
$ curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  "https://us-east5-aiplatform.googleapis.com/v1beta1/projects/${GOOGLE_CLOUD_PROJECT}/locations/us-east5/publishers/anthropic/models/claude-sonnet-4-6:rawPredict" \
  -d '{
    "anthropic_version": "vertex-2023-10-16",
    "messages": [{"role": "user", "content": "Vertex AI 経由で Claude に送ったメッセージです。自己紹介をしてください。"}],
    "max_tokens": 100
  }'
レスポンス例
{
  "model": "claude-sonnet-4-6",
  "id": "msg_vrtx_01AYuPE31R5Ryntg6mMqF5ZX",
  "type": "message",
  "role": "assistant",
  "content": [
    {
      "type": "text",
      "text": "# 自己紹介\n\nこんにちは！私は **Claude**（クロード）です。**Anthropic**（アンソロピック）によって開発されたAIアシスタントです。..."
    }
  ],
  "stop_reason": "max_tokens",
  "usage": {
    "input_tokens": 35,
    "output_tokens": 100
  }
}
REST APIを利用してアクセスした場合、リクエストとレスポンスのログをBigQueryへ格納することができます。ブラウザからBigQueryのコンソールを確認すると無事にログが取得できていました。
レスポンスログには、トークン数などの各種情報も記録されているので、データ分析用途にも利用することができると思います。
 制約事項・注意点Vertex AI で Claude を利用する際に押さえておくべき制約をまとめます。


制約事項
内容


画像ファイルサイズ
1 リクエストあたり最大 5 MB

画像枚数
1 リクエストあたり最大 100 枚

データレジデンシー
要件がある場合はリージョナルエンドポイントを使用（グローバルエンドポイントは非対応）

グローバルエンドポイントの制限
Provisioned Throughput・リクエスト/レスポンスのログ記録は非対応（Prompt Caching は対応）

利用可能リージョン
日本リージョン未対応（米国・欧州・アジア太平洋リージョンは対応）

モデルの個別有効化
利用するモデルごとに Model Garden から有効化が必要

 料金についてClaude モデルの料金は 従量課金（入力・出力トークン数に応じた課金）です。課金の対象となるトークン種別は以下のとおりです。


トークン種別
説明


入力トークン
ユーザーが送ったプロンプトのトークン数

出力トークン
モデルが生成したレスポンスのトークン数

キャッシュ書き込みトークン（5 分）
Prompt Caching で新規キャッシュを作成する際のトークン数

キャッシュ書き込みトークン（1 時間）
TTL を 1 時間に延長してキャッシュを作成する際のトークン数

キャッシュ読み込みトークン
既存キャッシュを再利用した際のトークン数（大幅に安価）

一定量以上の処理が見込まれる場合は Provisioned Throughput も選択できます（グローバルエンドポイントでは利用不可）。
 2026 年 4 月時点のグローバルエンドポイント料金（100 万トークンあたり）

モデル
項目
≤ 20 万入力トークン
> 20 万入力トークン


Claude Opus 4.6
入力
$5.00
$5.00


出力
$25.00
$25.00


バッチ入力
$2.50
-


バッチ出力
$12.50
-


5 分キャッシュ書き込み
$6.25
$6.25


1 時間キャッシュ書き込み
$10.00
$10.00


キャッシュヒット
$0.50
$0.50


5 分バッチキャッシュ書き込み
$3.125
-


1 時間バッチキャッシュ書き込み
$5.00
-


バッチキャッシュヒット
$0.25
-

Claude Opus 4.5
入力
$5.00
-


出力
$25.00
-


バッチ入力
$2.50
-


バッチ出力
$12.50
-


5 分キャッシュ書き込み
$6.25
-


1 時間キャッシュ書き込み
$10.00
-


キャッシュヒット
$0.50
-


5 分バッチキャッシュ書き込み
$3.125
-


1 時間バッチキャッシュ書き込み
$5.00
-


バッチキャッシュヒット
$0.25
-

Claude Sonnet 4.6
入力
$3.00
$3.00


出力
$15.00
$15.00


バッチ入力
$1.50
-


バッチ出力
$7.50
-


5 分キャッシュ書き込み
$3.75
$3.75


1 時間キャッシュ書き込み
$6.00
$6.00


キャッシュヒット
$0.30
$0.30


5 分バッチキャッシュ書き込み
$1.88
-


1 時間バッチキャッシュ書き込み
$3.00
-


バッチキャッシュヒット
$0.15
-

Claude Sonnet 4.5
入力
$3.00
$6.00


出力
$15.00
$22.50


バッチ入力
$1.50
-


バッチ出力
$7.50
-


5 分キャッシュ書き込み
$3.75
$7.50


1 時間キャッシュ書き込み
$6.00
$12.00


キャッシュヒット
$0.30
$0.60


5 分バッチキャッシュ書き込み
$1.88
-


1 時間バッチキャッシュ書き込み
$3.00
-


バッチキャッシュヒット
$0.15
-

Claude Haiku 4.5
入力
$1.00
-


出力
$5.00
-


バッチ入力
$0.50
-


バッチ出力
$2.50
-


5 分キャッシュ書き込み
$1.25
-


1 時間キャッシュ書き込み
$2.00
-


キャッシュヒット
$0.10
-


5 分バッチキャッシュ書き込み
$0.625
-


1 時間バッチキャッシュ書き込み
$1.00
-


バッチキャッシュヒット
$0.05
-

 ツール料金（Preview）!ウェブ検索機能は 2026 年 4 月時点で Preview です。
https://docs.cloud.google.com/vertex-ai/generative-ai/docs/partner-models/claude/web-search?hl=ja


ツール
料金


ウェブ検索リクエスト
$10 / 1,000 回の検索

サポート対象モデル: Claude Haiku 4.5、Claude Sonnet 4.5、Claude Sonnet 4.6、Claude Sonnet 4、Claude Opus 4.1、Claude Opus 4、Claude Opus 4.5、Claude Opus 4.6
!クエリ入力コンテキストが 200,000 トークン以上の場合、すべてのトークン（入力と出力）が長いコンテキストの料金で課金されます。
料金は変動する場合があるため、最新の料金は公式ページを参照してください。
https://cloud.google.com/vertex-ai/generative-ai/pricing#partner-models
 まとめ今回は、Google CloudでもVertex AI経由でClaudeを利用することができることを紹介しました。

Vertex AIのModel Gardenを通じてClaudeモデルをフルマネージドなAPIとして利用できます。
特に注目すべきポイントは以下の3点です。
インフラ管理不要のMaaS形式で、既存の Google Cloud プロジェクトにすぐ組み込めるため運用負荷が軽い。
Anthropic SDK（anthropic[vertex]） を使うことで、ADC認証とエンドポイント設定を自動処理でき、コードが簡潔になる。
グローバルエンドポイントを活用することで可用性・エラー率を改善できるが、データレジデンシーや Provisioned Throughput の要件がある場合はリージョナルエンドポイントを選択する必要がある。
Claude の高度な推論能力を Google Cloud のガバナンス・セキュリティの枠組みの中で使いたい方は、Model Gardenからモデルを有効化して試してみてはいかがでしょうか。
この記事が誰かの助けになれば幸いです。
以上、クラウド事業本部コンサルティング部の渡邉でした!

Vertex AIのModel GardenでClaudeを使ってみた

はじめに

Vertex AIでのClaude利用

利用可能なモデル一覧

利用可能なリージョン

グローバルエンドポイントとリージョナルエンドポイントの違い

クォータ

クォータの概要

デフォルトクォータ（2026 年 4 月時点）

クォータ名（Google Cloud コンソール）

クォータの引き上げ

Vertex AIでClaudeを利用してみた

前提条件

ステップ 1: Vertex AI API を有効化する

ステップ 2: Model Garden でモデルを有効化する

ステップ 3: ログ記録の設定

BigQuery データセットの作成

ロギングの有効化

ロギング設定の確認

実際に試してみた

Vertex AI Studio で呼び出す

Anthropic SDK（Python）で呼び出す

REST API で呼び出す

制約事項・注意点

料金について

2026 年 4 月時点のグローバルエンドポイント料金（100 万トークンあたり）

ツール料金（Preview）

まとめ

関連記事

AWSで探す

注目のテーマ

プロダクトやサービスで探す

特集やシリーズから探す

EVENTS

項目	内容
インフラ管理	不要（フルマネージド）
料金体系	従量課金（Pay as you go）または Provisioned Throughput
認証	Google Cloud の Application Default Credentials（ADC）を利用
コンプライアンス	FedRAMP High 準拠
ストリーミング	Server-Sent Events（SSE）によるレスポンスストリーミングに対応

モデル名	Vertex AI モデル ID	状態
Claude Opus 4.6	`claude-opus-4-6`	GA
Claude Sonnet 4.6	`claude-sonnet-4-6`	GA
Claude Opus 4.5	`claude-opus-4-5`	GA
Claude Opus 4.1	`claude-opus-4-1`	GA
Claude Opus 4	`claude-opus-4`	GA
Claude Sonnet 4.5	`claude-sonnet-4-5`	GA
Claude Sonnet 4	`claude-sonnet-4`	GA
Claude Haiku 4.5	`claude-haiku-4-5`	GA
Claude 3.7 Sonnet	`claude-3-7-sonnet`	非推奨（2026/05/11 シャットダウン予定）
Claude 3.5 Haiku	`claude-3-5-haiku`	非推奨（2026/07/05 シャットダウン予定）
Claude 3 Haiku	`claude-3-haiku`	非推奨（2026/08/23 シャットダウン予定）

エンドポイント種別	リージョン	対象モデル
Global	`global`	Claude 4.x 系・Claude 3.7 Sonnet・Claude 3.5 系の主要モデル
米国	`us-east5`（Columbus）他 US 全リージョン	全 Claude モデル
欧州	`europe-west1`（Belgium）	Claude 4.x 系（Opus 4.6 / Sonnet 4.6 / Opus 4.5 / Sonnet 4.5 / Haiku 4.5 等）
アジア太平洋	`asia-southeast1`（Singapore）	Claude 4.x 系（Opus 4.6 / Sonnet 4.6 / Opus 4.5 / Sonnet 4.5 / Haiku 4.5 等）

項目	グローバルエンドポイント	リージョナルエンドポイント
リクエスト処理場所	モデルがサポートする任意のリージョン（制御不可）	指定したリージョン
可用性・エラー率	高可用性・429 エラー低減に有効	リージョン単体の可用性に依存
レイテンシ	場合によって高くなる可能性あり	指定リージョンに近い場合は低レイテンシ
データレジデンシー	非対応（処理リージョン保証なし）	対応可能
Provisioned Throughput	非対応	対応
リクエスト・レスポンスログ記録	非対応（リージョナルエンドポイントを使用）	対応
Prompt Caching	対応	対応
クォータ	リージョナルとは別枠（独立したクォータ）	リージョンごとのクォータ
エンドポイント URL	`https://aiplatform.googleapis.com/...`	`https://{REGION}-aiplatform.googleapis.com/...`
SDK 指定	`region="global"`	`region="us-east5"` 等

モデル	リージョン	QPM	入力 TPM	出力 TPM	コンテキスト長
Claude Opus 4.6	us-east5	200	2,000,000	200,000	1,000,000
	europe-west1	200	2,000,000	200,000	1,000,000
	asia-southeast1	200	2,000,000	200,000	1,000,000
	global	400	4,000,000	400,000	1,000,000
Claude Sonnet 4.6	us-east5	1,500	1,500,000	150,000	1,000,000
	europe-west1	1,800	1,800,000	180,000	1,000,000
	asia-southeast1	1,500	1,500,000	150,000	1,000,000
	global	1,500	1,500,000	150,000	1,000,000
Claude Opus 4.5	us-east5	200	2,000,000	200,000	200,000
	europe-west1	200	2,000,000	200,000	200,000
	asia-southeast1	200	2,000,000	200,000	200,000
	global	400	4,000,000	400,000	200,000
Claude Sonnet 4.5	us-east5	1,500	1,500,000	150,000	200,000（GA）/ 1,000,000（beta）
	europe-west1	1,800	1,800,000	180,000	200,000（GA）/ 1,000,000（beta）
	asia-southeast1	1,500	1,500,000	150,000	200,000（GA）/ 1,000,000（beta）
	global	1,500	1,500,000	150,000	200,000（GA）/ 1,000,000（beta）
Claude Haiku 4.5	us-east5	1,500	1,500,000	150,000	200,000
	europe-west1	1,800	1,800,000	180,000	200,000
	asia-east1	2,500	2,500,000	250,000	200,000
	global	2,500	2,500,000	250,000	200,000
Claude Opus 4.1	us-east5	25	60,000	6,000	200,000
	global	25	60,000	6,000	200,000
Claude Opus 4	us-east5	25	60,000	6,000	200,000
	global	25	60,000	6,000	200,000
Claude Sonnet 4	us-east5	35	280,000	20,000	1,000,000
	europe-west1	25	180,000	20,000	1,000,000
	asia-east1	70	550,000	50,000	1,000,000
	global	35	276,000	24,000	1,000,000

用途	クォータ名
QPM（リージョナル）	`online_prediction_requests_per_base_model`
QPM（グローバル）	`global_online_prediction_requests_per_base_model`
入力 TPM（リージョナル）	`online_prediction_input_tokens_per_minute_per_base_model`
入力 TPM（グローバル）	`global_online_prediction_input_tokens_per_minute_per_base_model`
出力 TPM（リージョナル）	`online_prediction_output_tokens_per_minute_per_base_model`
出力 TPM（グローバル）	`global_online_prediction_output_tokens_per_minute_per_base_model`

制約事項	内容
画像ファイルサイズ	1 リクエストあたり最大 5 MB
画像枚数	1 リクエストあたり最大 100 枚
データレジデンシー	要件がある場合はリージョナルエンドポイントを使用（グローバルエンドポイントは非対応）
グローバルエンドポイントの制限	Provisioned Throughput・リクエスト/レスポンスのログ記録は非対応（Prompt Caching は対応）
利用可能リージョン	日本リージョン未対応（米国・欧州・アジア太平洋リージョンは対応）
モデルの個別有効化	利用するモデルごとに Model Garden から有効化が必要

トークン種別	説明
入力トークン	ユーザーが送ったプロンプトのトークン数
出力トークン	モデルが生成したレスポンスのトークン数
キャッシュ書き込みトークン（5 分）	Prompt Caching で新規キャッシュを作成する際のトークン数
キャッシュ書き込みトークン（1 時間）	TTL を 1 時間に延長してキャッシュを作成する際のトークン数
キャッシュ読み込みトークン	既存キャッシュを再利用した際のトークン数（大幅に安価）

モデル	項目	≤ 20 万入力トークン	> 20 万入力トークン
Claude Opus 4.6	入力	$5.00	$5.00
	出力	$25.00	$25.00
	バッチ入力	$2.50	-
	バッチ出力	$12.50	-
	5 分キャッシュ書き込み	$6.25	$6.25
	1 時間キャッシュ書き込み	$10.00	$10.00
	キャッシュヒット	$0.50	$0.50
	5 分バッチキャッシュ書き込み	$3.125	-
	1 時間バッチキャッシュ書き込み	$5.00	-
	バッチキャッシュヒット	$0.25	-
Claude Opus 4.5	入力	$5.00	-
	出力	$25.00	-
	バッチ入力	$2.50	-
	バッチ出力	$12.50	-
	5 分キャッシュ書き込み	$6.25	-
	1 時間キャッシュ書き込み	$10.00	-
	キャッシュヒット	$0.50	-
	5 分バッチキャッシュ書き込み	$3.125	-
	1 時間バッチキャッシュ書き込み	$5.00	-
	バッチキャッシュヒット	$0.25	-
Claude Sonnet 4.6	入力	$3.00	$3.00
	出力	$15.00	$15.00
	バッチ入力	$1.50	-
	バッチ出力	$7.50	-
	5 分キャッシュ書き込み	$3.75	$3.75
	1 時間キャッシュ書き込み	$6.00	$6.00
	キャッシュヒット	$0.30	$0.30
	5 分バッチキャッシュ書き込み	$1.88	-
	1 時間バッチキャッシュ書き込み	$3.00	-
	バッチキャッシュヒット	$0.15	-
Claude Sonnet 4.5	入力	$3.00	$6.00
	出力	$15.00	$22.50
	バッチ入力	$1.50	-
	バッチ出力	$7.50	-
	5 分キャッシュ書き込み	$3.75	$7.50
	1 時間キャッシュ書き込み	$6.00	$12.00
	キャッシュヒット	$0.30	$0.60
	5 分バッチキャッシュ書き込み	$1.88	-
	1 時間バッチキャッシュ書き込み	$3.00	-
	バッチキャッシュヒット	$0.15	-
Claude Haiku 4.5	入力	$1.00	-
	出力	$5.00	-
	バッチ入力	$0.50	-
	バッチ出力	$2.50	-
	5 分キャッシュ書き込み	$1.25	-
	1 時間キャッシュ書き込み	$2.00	-
	キャッシュヒット	$0.10	-
	5 分バッチキャッシュ書き込み	$0.625	-
	1 時間バッチキャッシュ書き込み	$1.00	-
	バッチキャッシュヒット	$0.05	-