
BigLake 改め Google Cloud Lakehouse で AWS 側の Iceberg を BigQuery から直接アクセス可能になりました #GoogleCloudNext
ウィスキー、シガー、パイプをこよなく愛する大栗です。
Google Cloud から BigQuery の agentic era 向け強化が一挙に発表されました。その中でも、マルチクラウド運用をしているお客様支援の立場から強烈に目を引いたのが Cross-cloud Lakehouse (Preview) です。AWS 上の Apache Iceberg データを BigQuery や Managed Service for Apache Spark から直接クエリできるようになります。本エントリで内容をご紹介します。
- Unveiling new BigQuery capabilities for the agentic era
- Apache Iceberg Lakehouse | Google Cloud
- About Cross-cloud Lakehouse
- Set up Cross-cloud Lakehouse
- Use Cross-cloud Lakehouse
- Supported regions and capabilities
Google Cloud Lakehouse
今回の発表に合わせ、2026 年 4 月 20 日付けで BigLake が Google Cloud Lakehouse に改称されました。Web ページによっては Lakehouse for Apache Iceberg との記載もありますが、公式ドキュメントでの記載に倣います。
Cross-cloud Lakehouse (Preview) とは
Cross-cloud Lakehouse は Google Cloud Lakehouse の拡張で、他クラウドのデータを Google Cloud から BigQuery、Dataproc、Apache Spark で直接クエリできるようにする機能です。
ポイントは以下のとおりです。
- 対応クエリエンジンは BigQuery と Managed Service for Apache Spark(旧 Dataproc)
- 対象データは Apache Iceberg フォーマット
- Preview 時点ではフェデレーション対象は Databricks Unity Catalog on AWS が公式にサポートされる
- データ移行や ETL パイプラインの構築なしにクロスクラウド分析が可能
従来のクロスクラウド分析は egress コストや性能ボトルネックが大きな悩みでした。Cross-cloud Lakehouse はこの課題を Iceberg REST Catalog、Cross-Cloud Interconnect、透過キャッシュの組み合わせで解決しようとしています。
アーキテクチャ
公式ドキュメントでは、Cross-cloud Lakehouse の動作が 3 ステップで説明されています。
| ステップ | 内容 |
|---|---|
| メタデータ検出 | リモートの Apache Iceberg REST カタログ(Databricks Unity Catalog など)に Secret Manager 経由で認証して接続する |
| 安全な転送 | 任意で Cross-Cloud Interconnect 経由に切り替えることで、データ転送コストを抑制しレイテンシを予測可能にする |
| 最適化された実行: | リモートデータを Google Cloud 内の専用ストレージに一時キャッシュし、以降のクエリはキャッシュを参照することで egress 課金を回避する |
BigQuery や Managed Spark から見ると、普段のクエリと同じ感覚で AWS 側の Iceberg テーブルを触れます。裏側では Iceberg REST Catalog でメタデータを取得し、実データは S3 から読み出してキャッシュする、という流れになります。
対応リージョン
Cross-cloud Lakehouse で AWS のデータにアクセスする際に使われる Cross-Cloud Interconnect(CCI)は、Partner Cross-Cloud Interconnect(Partner CCI)、低レイテンシ専用リージョン、標準専用 CCI の 3 区分に分類されます。公式ドキュメントでは、大きなデータセットをクロスクラウドで扱う場合には Partner CCI もしくは Low Latency Dedicated のリージョンペアを選ぶことが推奨されています。
Partner Cross-Cloud Interconnect
Partner Cross-Cloud Interconnect for AWS は物理プロビジョニングなしに数分で接続できる方式です。Google Cloud 側の Partner Cross-Cloud Interconnect for AWS は、AWS 側の AWS Interconnect - multicloud と接続することでクロスクラウドのプライベート接続を構成します。概要や実際の接続手順は以下のエントリをご確認ください。
Cross-cloud Lakehouse の Preview 時点で Partner CCI に対応しているリージョンペアは以下のとおりです。
| AWS リージョン | Google Cloud リージョン |
|---|---|
| us-east-1 (N. Virginia) | us-east4 (Ashburn, VA) |
| us-west-1 (N. California) | us-west2 (Los Angeles, CA) |
| us-west-2 (Oregon) | us-west1 (The Dalles, OR) |
| eu-west-2 (London) | europe-west2 (London) |
| eu-central-1 (Frankfurt) | europe-west3 (Frankfurt) |
日本リージョン
日本の AWS リージョン(東京・大阪)は、現時点では Partner CCI の対応ペアに含まれていません。一方で、いずれも 低レイテンシ専用リージョン(AWS リージョンと Google Cloud リージョンが同一大都市圏に位置し、最も低レイテンシで接続可能な構成)としては対応しています。
| AWS リージョン | Google Cloud リージョン | Partner CCI | Low Latency Dedicated |
|---|---|---|---|
| ap-northeast-1 (東京) | asia-northeast1 (東京) | — | ✓ |
| ap-northeast-3 (大阪) | asia-northeast2 (大阪) | — | ✓ |
日本リージョンで Cross-cloud Lakehouse を利用する場合は、現状は Dedicated 側の Cross-Cloud Interconnect でプライベート接続を構成することになります。なお AWS 側のデータがアメリカやヨーロッパにある場合は、Partner CCI の対応ペアをそのまま利用できるので、AWS 側のデータ配置も含めて設計するのが良さそうです。
その他の全対応リージョンは Supported regions and CCI capabilities をご確認ください。
制限事項
Preview 時点での主な制限事項は次のとおりです。
- Preview(Pre-GA Offerings Terms 下)での提供
- フェデレーション対象として公式サポートされているのは Databricks Unity Catalog on AWS および Google Cloud
- BigQuery UI のエクスプローラーからフェデレーションカタログのツリーブラウズは不可(4 パートパスで直接指定)
- メタデータの鮮度は
--refresh-intervalに依存 - Iceberg Metrics は federated catalog では利用不可のため
rest-metrics-reporting-enabledは無効化が必要 - public internet 経由で利用する場合は AWS 側の egress 料金が発生するため、本番利用では Cross-Cloud Interconnect 経由を検討すべし
BigQuery Omni との立ち位置
マルチクラウドで BigQuery を使う手段としては BigQuery Omni が以前から存在していました。Omni は AWS や Azure 側のリージョンに BigQuery のコンピュートを配置し、データを動かさずにクエリする仕組みです。
今回の Cross-cloud Lakehouse は、Iceberg REST Catalog と Cross-Cloud Interconnect、透過キャッシュの組み合わせで、Google Cloud 側から AWS 上の Iceberg データに高速にアクセスする方向性です。データレイクの中心を Iceberg に寄せている環境であれば、今回の Cross-cloud Lakehouse の方が自然に組み込める可能性が高いと感じています。
両者の詳細な使い分けについては公式からの追加情報を待ちたいところです。
やってみる(つもりだった)
実は今回、AWS に Databricks Unity Catalog を立てて Iceberg テーブルを用意し、東京リージョンの BigQuery から Cross-cloud Lakehouse 経由でクエリしてみるところまで頑張ろうと思っていました。しかし、Databricks の準備に取り掛かろうと思ったのですが手が止まってしまいました。
ということで、実際の手順は公式ドキュメントの以下のページにまとまっていますので、こちらをご参照ください。準備が整った勇者の方はぜひ試してみていただき、結果を教えていただけると嬉しいです。
さいごに
AWS と Google Cloud の両方を日常的に扱うお客様を担当していると、「AWS 側のデータレイクを Google Cloud の BigQuery や Gemini で活用したい」というお話を頂くことは非常に多いです。これまでは BigQuery Omni やデータコピー、自前 ETL などの選択肢がありましたが、Iceberg という業界標準のフォーマットをベースとしてキャッシュや Interconnect を裏側に隠した形で BigQuery からそのまま触れる Cross-cloud Lakehouse は、今後の本命になる可能性がある機能だと期待しています。
AWS Interconnect - multicloud / Google Cloud Partner Cross-Cloud Interconnect が GA されて、早速お客様からのお問い合わせなどもあり適切なユースケースを考えていたのですが、Cross-Cloud Lakehouse はまさに最適なユースケースの一つという気がしています。東京に対応すると複数のクラウドに跨って巨大なデータを分析する有力な手段となるので、やはり本当に早く AWS Interconnect - multicloud が日本に対応してほしいです!!!








