Vertex AIのModel GardenでClaudeを使ってみた

Vertex AIのModel GardenでClaudeを使ってみた

2026.04.06

はじめに

こんにちは。
クラウド事業本部コンサルティング部の渡邉です。

最近、Claudeについての相談をお客様から頂くことがあります。
Claudeを利用される場合は、AWSだったらBedrock経由で利用することができますし、Anthropicとの直契約だったりいろいろ利用手段があるかと思います。

今回は、Google CloudでもVertex AI経由でClaudeを利用することができることを紹介したくこの記事を書いています。

Vertex AIでは、Model Gardenを利用することで、Googleのモデルだけでなく、Anthropic の Claude シリーズも Managed API Service(MaaS)として利用できます。MaaSとして利用することで、インフラを一切管理することなく、API を呼び出すだけで Claude の高い推論能力を活用できる点が大きな特徴です。

Vertex AIでのClaude利用

Vertex AI の Model Garden では、Anthropic の Claude モデルが MaaS(Model as a Service) として提供されています。MaaS 形式のため、以下の特徴があります。

項目 内容
インフラ管理 不要(フルマネージド)
料金体系 従量課金(Pay as you go)または Provisioned Throughput
認証 Google Cloud の Application Default Credentials(ADC)を利用
コンプライアンス FedRAMP High 準拠
ストリーミング Server-Sent Events(SSE)によるレスポンスストリーミングに対応

Claude モデルを Vertex AI 経由で利用することで、既存の Google Cloud のセキュリティ・ガバナンス・IAM と統合した形で AI 機能を組み込むことができます。

利用可能なモデル一覧

2026 年 4 月時点で、Vertex AI では以下の Claude モデルが利用可能です。

モデル名 Vertex AI モデル ID 状態
Claude Opus 4.6 claude-opus-4-6 GA
Claude Sonnet 4.6 claude-sonnet-4-6 GA
Claude Opus 4.5 claude-opus-4-5 GA
Claude Opus 4.1 claude-opus-4-1 GA
Claude Opus 4 claude-opus-4 GA
Claude Sonnet 4.5 claude-sonnet-4-5 GA
Claude Sonnet 4 claude-sonnet-4 GA
Claude Haiku 4.5 claude-haiku-4-5 GA
Claude 3.7 Sonnet claude-3-7-sonnet 非推奨(2026/05/11 シャットダウン予定)
Claude 3.5 Haiku claude-3-5-haiku 非推奨(2026/07/05 シャットダウン予定)
Claude 3 Haiku claude-3-haiku 非推奨(2026/08/23 シャットダウン予定)

利用可能なリージョン

Claude モデルは グローバルエンドポイント米国リージョン欧州リージョンアジア太平洋リージョン で利用できます。

エンドポイント種別 リージョン 対象モデル
Global global Claude 4.x 系・Claude 3.7 Sonnet・Claude 3.5 系の主要モデル
米国 us-east5(Columbus)他 US 全リージョン 全 Claude モデル
欧州 europe-west1(Belgium) Claude 4.x 系(Opus 4.6 / Sonnet 4.6 / Opus 4.5 / Sonnet 4.5 / Haiku 4.5 等)
アジア太平洋 asia-southeast1(Singapore) Claude 4.x 系(Opus 4.6 / Sonnet 4.6 / Opus 4.5 / Sonnet 4.5 / Haiku 4.5 等)

グローバルエンドポイントとリージョナルエンドポイントの違い

APIを呼び出す際のグローバルエンドポイントとリージョナルエンドポイントの違いについて以下にまとめます。

項目 グローバルエンドポイント リージョナルエンドポイント
リクエスト処理場所 モデルがサポートする任意のリージョン(制御不可) 指定したリージョン
可用性・エラー率 高可用性・429 エラー低減に有効 リージョン単体の可用性に依存
レイテンシ 場合によって高くなる可能性あり 指定リージョンに近い場合は低レイテンシ
データレジデンシー 非対応(処理リージョン保証なし) 対応可能
Provisioned Throughput 非対応 対応
リクエスト・レスポンスログ記録 非対応(リージョナルエンドポイントを使用) 対応
Prompt Caching 対応 対応
クォータ リージョナルとは別枠(独立したクォータ) リージョンごとのクォータ
エンドポイント URL https://aiplatform.googleapis.com/... https://{REGION}-aiplatform.googleapis.com/...
SDK 指定 region="global" region="us-east5"

エンドポイントの使い分けとしては、以下の方針が取れると思います。

  • グローバルエンドポイントを選ぶ場合: 高可用性が必要、429 エラーを減らしたい、データレジデンシー要件がない
  • リージョナルエンドポイントを選ぶ場合: データレジデンシー要件がある、Provisioned Throughput を使いたい、処理リージョンを明示的に制御したい

クォータ

クォータの概要

Claude モデルのクォータは QPM(Queries Per Minute)TPM(Tokens Per Minute) で管理されます。TPM は入力・出力トークンをそれぞれ個別に計測するモデルと、合算で計測するモデルがあります。

クォータはリージョンごとに独立しており、グローバルエンドポイント用の独立したクォータも存在します。

デフォルトクォータ(2026 年 4 月時点)

モデル リージョン QPM 入力 TPM 出力 TPM コンテキスト長
Claude Opus 4.6 us-east5 200 2,000,000 200,000 1,000,000
europe-west1 200 2,000,000 200,000 1,000,000
asia-southeast1 200 2,000,000 200,000 1,000,000
global 400 4,000,000 400,000 1,000,000
Claude Sonnet 4.6 us-east5 1,500 1,500,000 150,000 1,000,000
europe-west1 1,800 1,800,000 180,000 1,000,000
asia-southeast1 1,500 1,500,000 150,000 1,000,000
global 1,500 1,500,000 150,000 1,000,000
Claude Opus 4.5 us-east5 200 2,000,000 200,000 200,000
europe-west1 200 2,000,000 200,000 200,000
asia-southeast1 200 2,000,000 200,000 200,000
global 400 4,000,000 400,000 200,000
Claude Sonnet 4.5 us-east5 1,500 1,500,000 150,000 200,000(GA)/ 1,000,000(beta)
europe-west1 1,800 1,800,000 180,000 200,000(GA)/ 1,000,000(beta)
asia-southeast1 1,500 1,500,000 150,000 200,000(GA)/ 1,000,000(beta)
global 1,500 1,500,000 150,000 200,000(GA)/ 1,000,000(beta)
Claude Haiku 4.5 us-east5 1,500 1,500,000 150,000 200,000
europe-west1 1,800 1,800,000 180,000 200,000
asia-east1 2,500 2,500,000 250,000 200,000
global 2,500 2,500,000 250,000 200,000
Claude Opus 4.1 us-east5 25 60,000 6,000 200,000
global 25 60,000 6,000 200,000
Claude Opus 4 us-east5 25 60,000 6,000 200,000
global 25 60,000 6,000 200,000
Claude Sonnet 4 us-east5 35 280,000 20,000 1,000,000
europe-west1 25 180,000 20,000 1,000,000
asia-east1 70 550,000 50,000 1,000,000
global 35 276,000 24,000 1,000,000

入力 TPM のカウント対象は キャッシュ未使用トークンとキャッシュ書き込みトークンの合計(キャッシュヒットトークンは含まない)です。

クォータ名(Google Cloud コンソール)

Google Cloud コンソールの「クォータと上限」ページで確認・編集できるクォータ名は以下のとおりです。

用途 クォータ名
QPM(リージョナル) online_prediction_requests_per_base_model
QPM(グローバル) global_online_prediction_requests_per_base_model
入力 TPM(リージョナル) online_prediction_input_tokens_per_minute_per_base_model
入力 TPM(グローバル) global_online_prediction_input_tokens_per_minute_per_base_model
出力 TPM(リージョナル) online_prediction_output_tokens_per_minute_per_base_model
出力 TPM(グローバル) global_online_prediction_output_tokens_per_minute_per_base_model

クォータの引き上げ

デフォルトクォータで不足する場合は、Google Cloud コンソールからクォータ引き上げをリクエストできます。

  1. クォータと上限 ページを開く
  2. 対象のクォータを検索し、行末の「…」から「クォータを編集」を選択
  3. 新しい値を入力して「リクエストを送信」

Vertex AIでClaudeを利用してみた

前提条件

  • Google Cloud プロジェクトが作成済みであること
  • gcloud CLI がインストール・認証済みであること
  • Vertex AI API が有効化済みであること

ステップ 1: Vertex AI API を有効化する

まずはVertex AIを利用したいプロジェクトでVertex AIのAPIを有効化します。

gcloud services enable aiplatform.googleapis.com --project=${GOOGLE_CLOUD_PROJECT}

ステップ 2: Model Garden でモデルを有効化する

Vertex AI の Claude モデルは、Model Garden のモデルカードから個別に有効化する必要があります。

Cloud Consoleから「Vertex AI」 -> 「Model Garden」をクリックしてください。
Model Gardenに遷移したあと、モデルコレクションから「パートナーのモデル」をクリックします。

alt text

  • Claude Sonnet 4.6

を選択し、「有効にする」をクリックして有効化します。

alt text

「有効にする」をクリックすると

This third party model is licensed from Anthropic and is provided under Anthropic's terms of service.

とAnthropicとの利用規約への同意が求められます。

alt text

必要情報を入力して同意するとモデルが使用可能になります。

alt text

ステップ 3: ログ記録の設定

Anthropic は、モデルの誤用を検知するためにプロンプトと補完の30日間ログ記録を有効化することを推奨しています。

ロギングは REST API で設定します(Anthropic モデルは Python SDK 非対応)。ログの保存先に BigQuery テーブルを指定します。

BigQuery データセットの作成

テーブルは自動作成されますが、データセットは事前に作成が必要です。us-east5 リージョンを使用する場合は US ロケーションを指定します。

bq mk --location=US --dataset ${GOOGLE_CLOUD_PROJECT}:vertex_ai_logs

ロギングの有効化

$ curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  -d '{
    "publisherModelConfig": {
      "loggingConfig": {
        "enabled": true,
        "samplingRate": 1.0,
        "bigqueryDestination": {
          "outputUri": "bq://${GOOGLE_CLOUD_PROJECT}.vertex_ai_logs"
        },
        "enableOtelLogging": true
      }
    }
  }' \
  "https://us-east5-aiplatform.googleapis.com/v1beta1/projects/${GOOGLE_CLOUD_PROJECT}/locations/us-east5/publishers/anthropic/models/claude-sonnet-4-6:setPublisherModelConfig"

samplingRate01 の値で、1.0 で全リクエストをログ記録します。テーブル名(request_response_logging)は自動作成されます。

ロギング設定の確認

$ curl -X GET   -H "Authorization: Bearer $(gcloud auth print-access-token)"   "https://us-east5-aiplatform.googleapis.com/v1beta1/projects/${GOOGLE_CLOUD_PROJECT}/locations/us-east5/publishers/anthropic/models/claude-sonnet-4-6:fetchPublisherModelConfig"
{
  "loggingConfig": {
    "enabled": true,
    "samplingRate": 1,
    "bigqueryDestination": {
      "outputUri": "bq://${GOOGLE_CLOUD_PROJECT}.vertex_ai_logs.request_response_logging"
    },
    "enableOtelLogging": true
  }
}

alt text

詳細は
https://cloud.google.com/vertex-ai/generative-ai/docs/multimodal/request-response-logging
を参照してください。

実際に試してみた

Vertex AI Studio で呼び出す

Google Cloud Console 画面からVertex AI Studioを利用するのが一番簡単にClaudeを利用する方法です。
チャットベースのUIなので、Geminiをすでに利用されている方は抵抗なく利用することができるかと思います。
モデルとしてAnthropic Claude Sonnet 4.6を選択することで、Anthropic Claude Sonnet 4.6を利用した対話が実現できます。

alt text

Anthropic SDK(Python)で呼び出す

Anthropic が提供する anthropic[vertex] パッケージを使うと、Vertex AI 向けの認証・エンドポイント設定を自動で処理してくれます。

まずパッケージをインストールします。

pip install -U 'anthropic[vertex]'

次に Application Default Credentials を設定します。

gcloud auth application-default login

以下のコードで Claude Sonnet 4.6 にリクエストを送ります。

claude-test.py
from anthropic import AnthropicVertex

PROJECT_ID = "your-project-id"  # Google Cloud プロジェクト ID に置き換える

client = AnthropicVertex(project_id=PROJECT_ID, region="global")

message = client.messages.create(
    model="claude-sonnet-4-6",
    max_tokens=1024,
    messages=[
        {"role": "user", "content": "Vertex AI 経由で Claude に送ったメッセージです。自己紹介をしてください。"}
    ],
)

print(message.content[0].text)

レスポンスの確認

$ python claude-test.py 
# 自己紹介

こんにちは!私は **Claude**(クロード)です。**Anthropic**(アンソロピック)という AI 安全性研究会社によって作られた AI アシスタントです。

## 私についての基本情報

- 🤖 **名前**: Claude
- 🏢 **開発元**: Anthropic
- 🌐 **アクセス方法**: 今回は **Google Cloud Vertex AI** 経由でご利用いただいています
- 📅 **知識のカットオフ**: 2025年初頭頃まで

## 私にできること

- 💬 自然な会話・質問への回答
- 📝 文章の作成・編集・要約
- 💻 プログラミングのサポート
- 🔍 情報の分析・調査
- 🌏 多言語対応(日本語ももちろん対応!)
- 🧠 複雑な問題の論理的な整理

## 私のモットー

**正確で、誠実で、役に立つ**アシスタントであることを心がけています。わからないことは「わからない」と正直にお伝えします。

---

何かお手伝いできることがあれば、お気軽にどうぞ!😊

グローバルエンドポイントは可用性向上・エラー率低減に効果的ですが、レイテンシが高くなる場合があります。

REST API で呼び出す

SDK を使わず、直接 REST API(rawPredict)でも呼び出せます。ロギングを使用する場合はリージョナルエンドポイントを指定してください。

$ curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  "https://us-east5-aiplatform.googleapis.com/v1beta1/projects/${GOOGLE_CLOUD_PROJECT}/locations/us-east5/publishers/anthropic/models/claude-sonnet-4-6:rawPredict" \
  -d '{
    "anthropic_version": "vertex-2023-10-16",
    "messages": [{"role": "user", "content": "Vertex AI 経由で Claude に送ったメッセージです。自己紹介をしてください。"}],
    "max_tokens": 100
  }'

レスポンス例

{
  "model": "claude-sonnet-4-6",
  "id": "msg_vrtx_01AYuPE31R5Ryntg6mMqF5ZX",
  "type": "message",
  "role": "assistant",
  "content": [
    {
      "type": "text",
      "text": "# 自己紹介\n\nこんにちは!私は **Claude**(クロード)です。**Anthropic**(アンソロピック)によって開発されたAIアシスタントです。..."
    }
  ],
  "stop_reason": "max_tokens",
  "usage": {
    "input_tokens": 35,
    "output_tokens": 100
  }
}

REST APIを利用してアクセスした場合、リクエストとレスポンスのログをBigQueryへ格納することができます。ブラウザからBigQueryのコンソールを確認すると無事にログが取得できていました。

alt text

レスポンスログには、トークン数などの各種情報も記録されているので、データ分析用途にも利用することができると思います。

制約事項・注意点

Vertex AI で Claude を利用する際に押さえておくべき制約をまとめます。

制約事項 内容
画像ファイルサイズ 1 リクエストあたり最大 5 MB
画像枚数 1 リクエストあたり最大 100 枚
データレジデンシー 要件がある場合はリージョナルエンドポイントを使用(グローバルエンドポイントは非対応)
グローバルエンドポイントの制限 Provisioned Throughput・リクエスト/レスポンスのログ記録は非対応(Prompt Caching は対応)
利用可能リージョン 日本リージョン未対応(米国・欧州・アジア太平洋リージョンは対応)
モデルの個別有効化 利用するモデルごとに Model Garden から有効化が必要

料金について

Claude モデルの料金は 従量課金(入力・出力トークン数に応じた課金)です。課金の対象となるトークン種別は以下のとおりです。

トークン種別 説明
入力トークン ユーザーが送ったプロンプトのトークン数
出力トークン モデルが生成したレスポンスのトークン数
キャッシュ書き込みトークン(5 分) Prompt Caching で新規キャッシュを作成する際のトークン数
キャッシュ書き込みトークン(1 時間) TTL を 1 時間に延長してキャッシュを作成する際のトークン数
キャッシュ読み込みトークン 既存キャッシュを再利用した際のトークン数(大幅に安価)

一定量以上の処理が見込まれる場合は Provisioned Throughput も選択できます(グローバルエンドポイントでは利用不可)。

2026 年 4 月時点のグローバルエンドポイント料金(100 万トークンあたり)

モデル 項目 ≤ 20 万入力トークン > 20 万入力トークン
Claude Opus 4.6 入力 $5.00 $5.00
出力 $25.00 $25.00
バッチ入力 $2.50 -
バッチ出力 $12.50 -
5 分キャッシュ書き込み $6.25 $6.25
1 時間キャッシュ書き込み $10.00 $10.00
キャッシュヒット $0.50 $0.50
5 分バッチキャッシュ書き込み $3.125 -
1 時間バッチキャッシュ書き込み $5.00 -
バッチキャッシュヒット $0.25 -
Claude Opus 4.5 入力 $5.00 -
出力 $25.00 -
バッチ入力 $2.50 -
バッチ出力 $12.50 -
5 分キャッシュ書き込み $6.25 -
1 時間キャッシュ書き込み $10.00 -
キャッシュヒット $0.50 -
5 分バッチキャッシュ書き込み $3.125 -
1 時間バッチキャッシュ書き込み $5.00 -
バッチキャッシュヒット $0.25 -
Claude Sonnet 4.6 入力 $3.00 $3.00
出力 $15.00 $15.00
バッチ入力 $1.50 -
バッチ出力 $7.50 -
5 分キャッシュ書き込み $3.75 $3.75
1 時間キャッシュ書き込み $6.00 $6.00
キャッシュヒット $0.30 $0.30
5 分バッチキャッシュ書き込み $1.88 -
1 時間バッチキャッシュ書き込み $3.00 -
バッチキャッシュヒット $0.15 -
Claude Sonnet 4.5 入力 $3.00 $6.00
出力 $15.00 $22.50
バッチ入力 $1.50 -
バッチ出力 $7.50 -
5 分キャッシュ書き込み $3.75 $7.50
1 時間キャッシュ書き込み $6.00 $12.00
キャッシュヒット $0.30 $0.60
5 分バッチキャッシュ書き込み $1.88 -
1 時間バッチキャッシュ書き込み $3.00 -
バッチキャッシュヒット $0.15 -
Claude Haiku 4.5 入力 $1.00 -
出力 $5.00 -
バッチ入力 $0.50 -
バッチ出力 $2.50 -
5 分キャッシュ書き込み $1.25 -
1 時間キャッシュ書き込み $2.00 -
キャッシュヒット $0.10 -
5 分バッチキャッシュ書き込み $0.625 -
1 時間バッチキャッシュ書き込み $1.00 -
バッチキャッシュヒット $0.05 -

ツール料金(Preview)

https://docs.cloud.google.com/vertex-ai/generative-ai/docs/partner-models/claude/web-search?hl=ja

ツール 料金
ウェブ検索リクエスト $10 / 1,000 回の検索

サポート対象モデル: Claude Haiku 4.5、Claude Sonnet 4.5、Claude Sonnet 4.6、Claude Sonnet 4、Claude Opus 4.1、Claude Opus 4、Claude Opus 4.5、Claude Opus 4.6

料金は変動する場合があるため、最新の料金は公式ページを参照してください。

https://cloud.google.com/vertex-ai/generative-ai/pricing#partner-models

まとめ

今回は、Google CloudでもVertex AI経由でClaudeを利用することができることを紹介しました。
Vertex AIのModel Gardenを通じてClaudeモデルをフルマネージドなAPIとして利用できます。

特に注目すべきポイントは以下の3点です。

  • インフラ管理不要のMaaS形式で、既存の Google Cloud プロジェクトにすぐ組み込めるため運用負荷が軽い。
  • Anthropic SDK(anthropic[vertex] を使うことで、ADC認証とエンドポイント設定を自動処理でき、コードが簡潔になる。
  • グローバルエンドポイントを活用することで可用性・エラー率を改善できるが、データレジデンシーや Provisioned Throughput の要件がある場合はリージョナルエンドポイントを選択する必要がある。

Claude の高度な推論能力を Google Cloud のガバナンス・セキュリティの枠組みの中で使いたい方は、Model Gardenからモデルを有効化して試してみてはいかがでしょうか。

この記事が誰かの助けになれば幸いです。

以上、クラウド事業本部コンサルティング部の渡邉でした!

この記事をシェアする

関連記事