[セッションレポート][ANA200] プレビュー提供が開始になったBigQueryのData Clean Roomsの利用に向けた第一歩 #GoolgeCloudNext

プレビュー提供が開始されたBigQuery Clean Roomsに関するセッションでした。いち早く体験してみたい方はぜひご覧ください!
2023.09.03

データアナリティクス事業本部 機械学習チームの鈴木です。

Google Cloud Next '23のセッション『Share securely with data clean rooms』を視聴したので感想をまとめました。

セッション概要

Data clean rooms can help organizations create and manage a secure environment for privacy-centric data sharing, analysis, and collaboration across organizations without moving or copying data. Discover how BigQuery data clean rooms and partners like Habu can enable technical and business stakeholders to easily share, collaborate, and analyze data internally and with external partners.

※ Google Cloud Next '23セッションページより引用

BigQueryのデータクリーンルーム機能はロードマップとして発表されていた機能でした。

このセッションではプレビュー提供開始のアナウンスと、必要性や使い方の紹介、Habuと組み合わせたユースケースについて学ぶことができました。

ポイントと感じた点

セッションを視聴してポイントだと思った点についてまとめました。また、使い方のドキュメントページも公開されていたため、セッションで説明があった内容と併せてご紹介します。

BigQueryにおけるデータクリーンルーム機能の必要性

多くの組織でデータを組み合わせる動きはますます広がっており、BigQueryでの組織を超えたデータ共有量は、1週間あたり350ペタバイトを超えています。特にAnalytics HubのGAの影響もあって、この1年で40%も増加したそうです。

データ共有の規模

データを組み合わせる理由としては、新しい洞察の発見はもちろんですが、アドテクなどであれば3rd party cookieに変わるユーザー識別子としての用途もあります。

このような状況で、データのプライバシー保護とコンプライアンスの遵守は非常に重要性です。またCCPAやGDPRやそれに類する法規制が適用される場合は遵守する必要があります。これらのルールを守らずに共有すると、多額の罰金が科せられる可能性もあります。

データ共有で押さえるべき重要な観点

これだけの規模のデータ共有がされているBigQueryにおいて、データクリーンルーム機能は必須の機能と言えますね。

Data Clean Roomsのイメージ

また、BigQueryを使ってデータクリーンルームを実現することで、サブスクライバー側ではLookerやLooker StudioのBI、BigQuery MLやPaLMなどの機械学習でそのまま利用できるのも大きなポイントです。

BigQuery Clean Roomの全体像

BigQuery Clean Roomの利用の全体像もユースケース例と一緒に紹介頂きました。すぐに触ってみられるように全体像と、現状公開されているドキュメントについて触れておきます。

BigQuery Clean Roomの使用の流れ

まずAnalytics HubでClean Roomを作るところからスタートですが、自分のプロジェクトで確認してみたところ確かにプレビューでClean Room作成のボタンができていました。

Clean Roomの作成ボタン

クリーンルームの作成

Clean RoomにBigQueryの承認されたビューを追加し、ルールを設定できます。

ルールの追加

特徴的だなと思った点としてBigQuery Omniを使うことでGoogle CloudにないデータでもClean Roomで利用する対象にすることができる点です。BigQueryをインターフェースに、Google Cloud以外のパブリッククラウドにあるデータも対象にしたデータクリーンルームを作るということも可能です。

また、モニタリング機能もあります。個人的に、これはすごくいい機能だと思っています。データウェアハウスのデータマートでよく言われることですが、Clean Roomも作ったはいいものの時間の経過や運用の変化により使われる頻度が下がってしまうことがあると予想できます。モニタリング機能で分かる利用メトリクスを踏まえて使われていないものを棚おろしし、削除するのかユーザーにヒアリングしてテコ入れするのか判断することができるので、大変役立ちそうです。

モニタリング機能

より詳細な手順について、『Use data clean rooms  |  BigQuery  |  Google Cloud』のガイドを確認するようにしてください。

Habuと組み合わせた使い方

Habu社のデータクリーンルームソフトウェアと組み合わせた例も紹介頂きました。

Habu社の紹介

HabuとGoogle Cloudの連携は、それぞれの公式ページにも紹介があります。

Habuを使うことで、データ形式などを気にせず接続でき、自動化されたワークフローにより高度なコラボレーションが容易に実現できるそうです。

Habuによるコラボレーション

BigQuery + Habuの理由

特にビジネスユーザーフレンドリーの観点ですが、Habu AI Query Builderを使えばクエリも生成してくれるようでめちゃくちゃ便利そうでした。

Habu AI Query Builder

そのほか、KPIダッシュボードのためのBIツールやアラート構成、データに対して質問できるチャットモジュールもあるそうです。

行・列レベルのルールの設定などもUIから可能で、開発もとても進めやすそうでした。

行・列レベルルールの設定

最後に

Google Cloud Next '23のセッション『Share securely with data clean rooms』のまとめと感想でした。

最初はBigQuery用のデータクリーンルーム機能なのかと驚きましたが、具体的な数字からその必要性がよく分かりました。

使い方の概要も分かりました。先に見たように既にAnalytics Hubからプレビュー版が利用可能ですし、ドキュメントにも詳細に手順が記載されているので、関心がある方はすぐに触って頂けると思います。

Habuとの連携もとても使いやすそうでした。データクリーンルームはビジネスユーザーの利用も想定されますが、UI上の工夫に加えてAIによる支援機能も追加されておりとても使いやすそうに思いました。

このデータクリーンルームはBigQueryの新機能を紹介する『What’s new with BigQuery』セッションでも触れられており、こちらのセッションはBigQueryの全体像を踏まえて機能の立ち位置を理解することができます。以下にレポートを公開しているので併せてご確認ください。