[セッションレポート][ANA100] Google Cloud Next ’23時点におけるBigQueryの新機能について学ぶ #GoolgeCloudNext
データアナリティクス事業本部 機械学習チームの鈴木です。
Google Cloud Next '23のセッション『What’s new with BigQuery』を視聴したので感想をまとめました。
セッション概要
In this digital-first era, data analytics continues to be at the core of driving differentiation and innovation for businesses. Learn how BigQuery is fueling transformations and helping organizations build data ecosystems, and discover the latest product announcements, upcoming innovations, and strategic roadmap.
※ Google Cloud Next '23セッションページより引用
Google Cloud Next '23開催時点でのBigQueryの新機能と、Discord社での事例について紹介がありました。
言及されたBigQueryの新機能は、ざっくり以下になります。詳細はセッションをご確認ください。
- BigQuery Studio(プレビュー)
- Dataform(GA)
- データプロファイリング・データ品質・データリネージのデータガバナンス機能(GA)
- BigLakeを使ったマネージドレイクハウス(GAおよびプレビュー機能の紹介)
- BigQuery Omni(GAおよびプレビュー機能の紹介)
- Analytics Hub(GA)
- Data Clean Rooms(プレビュー)
- ストリーミング分析機能(ロードマップ)
- Duet AI in BigQuery(プレビュー)
- BigQuery MLのリモート推論(GAおよびプレビュー機能の紹介)
- ベクトルインデックス機能(ロードマップ)
- BigQueryエディション(GA)
- パフォーマンス改善(GA)
- テーブルスナップショットとクローン(GA)
- BigQuery Migration Services(プレビュー機能の追加)
- BigQuery Partner center(GA)
ポイントと感じた点
多くの機能や事例について紹介がありましたが、その中でポイントと感じた点について記載します。
BigQueryはますますGoogleのデータとAIの中核サービスに
ML.GENERATE_TEXT
関数など、PaLMのための推論関数の追加や、BigQuery Studioのプレビューなどから感じていましたが、ますますBigQueryはGoogle CloudのデータとAIの中核としての役割を担っていくようです。
BigQueryの独自のアーキテクチャにより、処理速度やスケーラビリティを始めとしたデータ分析に必要な観点において、大きなアドバンテージがあります。(BigQuery自体の仕組みについて知りたい方はこの図に登場する構成要素を深掘りしていくとよいかもしれません。)
現状プレビュー段階であるBigQuery Studioでは、これまでのSQLエディタに追加してPythonノートブックも同一のワークスペースから利用できるようになります。データ品質・リネージなどのガバナンス機能などもこの機能からアクセスできるよう統合されており、BigQueryをGoogle Cloudでのデータ・AI活用の中心にするための強力な追加機能になっています。
BigQuery StudioおよびPaLMでの処理実行については、以下のセッション記事でもまとめています。
次世代のレイクハウスのための機能も拡充
Data Clean Roomsのプレビュー提供や、BigLakeによる非Hiveフォーマットのテーブルへの機能強化など、次世代のレイクハウスの実現にも力が入れられていることを感じました。
Data Clean Roomsは4月にロードマップとして想定している機能の紹介がブログ記事として紹介されていましたが、プレビュー機能として利用できるようになりました。
BigLakeでは、Apache Iceberg・Delta Lake・Apache Hudiの非Hiveフォーマットのテーブルへのきめ細やかなアクセスが一般提供されました。データレイク上でもより手軽かつ強力にデータガバナンスを実現することができます。
BigQuery Omniの追加機能もありました。異なるクラウド上のデータを合わせての分析がより便利になりそうです。
AIによる開発支援機能
Duet AI in BigQueryがプレビュー版で発表されました。以下の機能が利用できます。
- Google Cloudのコンソールからの質問機能
- BigQueryのエディタ上でのSQLの解説
- BigQueryのエディタ上でのSQL生成
BigQueryも多機能になってきましたが、初めて触る機能についてはコンソールからDuet AIに聞けばすぐに分かりますし、SQLをどう書いていいか分からないときに生成してもらったりなど非常に開発が楽になりそうです。
詳細は以下のセッションレポートでも紹介しております。
Discord社での事例紹介
Discord社でBigQueryを中心にデータ分析基盤を構築した事例を紹介頂きました。
まず、データ活用上の課題は以下でした。中央集権型のデータ分析基盤を運用する際によく起こりがちな課題もありますね。
Google Cloud上で以下のようなアーキテクチャの基盤を構築したそうです。セルフサービスなデータプラットフォームを実現するための仕組みをどのような技術要素で実現しているかまで押さえられており、非常に参考になります。これからGoogle Cloudでデータガバナンスやセルフサービス化に力を入れた基盤を構築したい場合はこの図を足掛かりに技術要素をキャッチアップするとよいかもしれません。
上記のアーキテクチャにしたことによる効果と学びも紹介頂きました。
BigQueryエディションであればスロットがオートスケールするのでリソース確保のための運用も容易になりますし、Data QualityやData Linageの機能もついていることが非常に協力なアドバンテージであることが分かります。
最後に
Google Cloud Next '23のセッション『What’s new with BigQuery』の感想およびまとめでした。
BigQuery単体やBigQuery MLは日頃の開発で使っているのですが、BigQuery OmniやBigLakeとの統合機能はあまり知らなかったので、このタイミングで新しい機能と一緒におさらいできて勉強になりました。
Data Clean Roomsなど新機能については紹介セッションもあり、プレビューで利用可能になっているので、ぜひ触ってみたいなと思います。