Google Cloud Next’24で発表されたBigQueryのアップデート情報をまとめました

2024.04.14

Google Cloudデータエンジニアのはんざわです。
Google Cloud Next'24において、各サービスで多数のアップデート情報が紹介されました。
この記事では、BigQueryのアップデート情報、特にデータエンジニア向けの情報をまとめて紹介したいと思います!

新機能が発表されたセッションとその内容を簡単に紹介していきます!
気になる内容があった方は是非、YouTubeの動画を確認してみてください。

注意点

  1. 本記事の内容にBigQuery ML関連のサービスは含まれていません。
  2. 不足している情報があれば随時更新します...
  3. 2024年4月13日時点では、Google Cloud Next'24で発表された機能のほとんどがリリースノートやドキュメントに反映されていません。そのため今後変更される可能性がありますので注意してください。

Build a unified, open, and fully managed lakehouse for analytics and AI with BigQuery

ここからのアップデート情報は、Build a unified, open, and fully managed lakehouse for analytics and AI with BigQueryのセッションで発表されたものになります。

Managed Lakehourse with BigLake(Preview / GA)

Apache IcebergやDelta Lakeのフォーマットのデータも扱えるようになります。
また、BigLake Managed Tablesにおいて、Apache IcebergはDMLと高いスループットストリーミングもサポートします。

BigQuery metastore(Preview)

SQLとSparkなどのOSSを統一化することが可能になるようです。
また、このランタイムで構造化データと半構造化データの両方を扱うことも可能なようです。

Unified SQL and Apache Spark experience(Preview)

SQLのみでApache Sparkを扱える機能です。
PythonやJavaをApache Sparkを扱う機能は既にGAになっていますが、新たにSQLも加わります。

What's new with BigQuery

ここからのアップデート情報は、What's new with BigQueryのセッションで発表されたものになります。

BigQuery workflows(Preview)

BigQuery workflowsは、SQLクエリや後述するdata canvas、data preparationなどの各タスクをワークフローとしてスケジュール実行を可能にする機能です。
さらにワークフローをDataformやCloud Composerにエクスポートすることも可能です。

Gemini in BigQuery(Preview)

Gemini in BigQueryは、BigQueryとGeminiが統合されたAIデータ基盤の総称です。
詳細は以前に執筆したブログを参照してください。

BigQuery data canvas(Preview)

BigQuery data canvasは、Gemini in BigQueryの機能の1つに該当します。
既に触ってみたブログを投稿しているので、是非そちらを確認してみてください。

BigQuery data preparation(Preview)

BigQuery data preparationは、生成AIのアシストにより、データのクレンジングや変換を行う機能です。
前述したBigQuery workflowsと組み合わせることも可能です。

Query acceleration improvements(Preview / GA)

以下の機能により、クエリのパフォーマンスがさらに向上すると予想されます。

  • 過去の実行履歴による自動最適化(Preview)
  • 小規模なクエリ(1GB未満のスキャン)の高速化と複数ユーザーによるクエリのスループット向上(Preview)
  • BIエンジンによる自動スマートキャッシング(GA)
  • BigQuery StudioやLooker、TableauなどのBIツールによりクエリの最適化(GA)
  • Looker Studioからの経験を高める(GA)

Cross-region disaster recovery(Preview)

Cross-region disaster recoveryは、リージョンレベルでの障害が発生した際にマネージドなフェイルオーバが行われる機能です。

Data governance in the AI era

ここからのアップデート情報は、Data governance in the AI eraのセッションで発表されたものになります。

Automatic cataloging(Preview / GA)

各データベースサービスで自動カタログ機能が追加されるようです。

Column-level linege for BigQuery(Preview)

Column-level linege for BigQueryにより、カラム単位でのデータリネージが可能になります。
従来はデータセット単位が最小単位でしたのでより細かいデータのトラッキングが可能になると予想されます。

Gen-AI powered semantic search(Preview)

生成AIを活用し、自然言語の検索でデータアセットの検索が可能になる機能です。
タグを適切に管理することで、より検索の精度が向上するそうです。

Gen-AI powered data insights(Preview)

質問リストから生成AIに問い合わせることでデータの探索ができるようになるようです。

Introducing governance rules

明確かつ正確なルールとその対象の範囲を定義することが可能になるそうです。

Governance rules for fine-grained access control(Preview)

Cloud StorageとBigQueryを跨いで、きめの細かいアクセス制御機能を提供します。

BigQuery operational health monitoring(Preview / GA)

上記のようにBigQueryの様々な指標を組織レベルで確認する事ができるダッシュボードを提供します。

Build continuous data and AI pipelines with BigQuery continuous queries

ここからのアップデート情報は、Build continuous data and AI pipelines with BigQuery continuous queries のセッションで発表されたものになります。

Continuous real-time analytics in SQL

BigQuery continuous queriesは、ストリームデータに対して継続的にSQLを実行することが可能です。
バッチ処理と比べて、リアルタイムにタスクを処理することが可能になります。

まとめ

本記事では、Google Cloud Next'24で発表されたBigQueryのアップデート情報をまとめました。
自分が楽しみにしている新機能は、BigQuery workflowsBigQuery data preparationです!
前述したように現時点(2024年4月13日)では、リリースノートでの発表はありませんが、アップデートの発表があり次第、さっそく触ってみたいと思っています。

また、Google Cloudの公式ブログでもGoogle Cloud Next'24で発表された新機能の紹介をしているので是非確認してみてください。

最後になりますが、Next'24の翌週に帰国したばかりの現地参加メンバーが振り返り勉強会を行いますので是非とも現地でご参加ください!