[セッションレポート][ANA200] プレビュー提供が開始になったBigQueryのData Clean Roomsの利用に向けた第一歩 #GoolgeCloudNext
データアナリティクス事業本部 機械学習チームの鈴木です。
Google Cloud Next '23のセッション『Share securely with data clean rooms』を視聴したので感想をまとめました。
セッション概要
Data clean rooms can help organizations create and manage a secure environment for privacy-centric data sharing, analysis, and collaboration across organizations without moving or copying data. Discover how BigQuery data clean rooms and partners like Habu can enable technical and business stakeholders to easily share, collaborate, and analyze data internally and with external partners.
※ Google Cloud Next '23セッションページより引用
BigQueryのデータクリーンルーム機能はロードマップとして発表されていた機能でした。
このセッションではプレビュー提供開始のアナウンスと、必要性や使い方の紹介、Habuと組み合わせたユースケースについて学ぶことができました。
ポイントと感じた点
セッションを視聴してポイントだと思った点についてまとめました。また、使い方のドキュメントページも公開されていたため、セッションで説明があった内容と併せてご紹介します。
BigQueryにおけるデータクリーンルーム機能の必要性
多くの組織でデータを組み合わせる動きはますます広がっており、BigQueryでの組織を超えたデータ共有量は、1週間あたり350ペタバイトを超えています。特にAnalytics HubのGAの影響もあって、この1年で40%も増加したそうです。
データを組み合わせる理由としては、新しい洞察の発見はもちろんですが、アドテクなどであれば3rd party cookieに変わるユーザー識別子としての用途もあります。
このような状況で、データのプライバシー保護とコンプライアンスの遵守は非常に重要性です。またCCPAやGDPRやそれに類する法規制が適用される場合は遵守する必要があります。これらのルールを守らずに共有すると、多額の罰金が科せられる可能性もあります。
これだけの規模のデータ共有がされているBigQueryにおいて、データクリーンルーム機能は必須の機能と言えますね。
また、BigQueryを使ってデータクリーンルームを実現することで、サブスクライバー側ではLookerやLooker StudioのBI、BigQuery MLやPaLMなどの機械学習でそのまま利用できるのも大きなポイントです。
BigQuery Clean Roomの全体像
BigQuery Clean Roomの利用の全体像もユースケース例と一緒に紹介頂きました。すぐに触ってみられるように全体像と、現状公開されているドキュメントについて触れておきます。
まずAnalytics HubでClean Roomを作るところからスタートですが、自分のプロジェクトで確認してみたところ確かにプレビューでClean Room作成のボタンができていました。
Clean RoomにBigQueryの承認されたビューを追加し、ルールを設定できます。
特徴的だなと思った点としてBigQuery Omniを使うことでGoogle CloudにないデータでもClean Roomで利用する対象にすることができる点です。BigQueryをインターフェースに、Google Cloud以外のパブリッククラウドにあるデータも対象にしたデータクリーンルームを作るということも可能です。
また、モニタリング機能もあります。個人的に、これはすごくいい機能だと思っています。データウェアハウスのデータマートでよく言われることですが、Clean Roomも作ったはいいものの時間の経過や運用の変化により使われる頻度が下がってしまうことがあると予想できます。モニタリング機能で分かる利用メトリクスを踏まえて使われていないものを棚おろしし、削除するのかユーザーにヒアリングしてテコ入れするのか判断することができるので、大変役立ちそうです。
より詳細な手順について、『Use data clean rooms | BigQuery | Google Cloud』のガイドを確認するようにしてください。
Habuと組み合わせた使い方
Habu社のデータクリーンルームソフトウェアと組み合わせた例も紹介頂きました。
HabuとGoogle Cloudの連携は、それぞれの公式ページにも紹介があります。
Habuを使うことで、データ形式などを気にせず接続でき、自動化されたワークフローにより高度なコラボレーションが容易に実現できるそうです。
特にビジネスユーザーフレンドリーの観点ですが、Habu AI Query Builderを使えばクエリも生成してくれるようでめちゃくちゃ便利そうでした。
そのほか、KPIダッシュボードのためのBIツールやアラート構成、データに対して質問できるチャットモジュールもあるそうです。
行・列レベルのルールの設定などもUIから可能で、開発もとても進めやすそうでした。
最後に
Google Cloud Next '23のセッション『Share securely with data clean rooms』のまとめと感想でした。
最初はBigQuery用のデータクリーンルーム機能なのかと驚きましたが、具体的な数字からその必要性がよく分かりました。
使い方の概要も分かりました。先に見たように既にAnalytics Hubからプレビュー版が利用可能ですし、ドキュメントにも詳細に手順が記載されているので、関心がある方はすぐに触って頂けると思います。
Habuとの連携もとても使いやすそうでした。データクリーンルームはビジネスユーザーの利用も想定されますが、UI上の工夫に加えてAIによる支援機能も追加されておりとても使いやすそうに思いました。
このデータクリーンルームはBigQueryの新機能を紹介する『What’s new with BigQuery』セッションでも触れられており、こちらのセッションはBigQueryの全体像を踏まえて機能の立ち位置を理解することができます。以下にレポートを公開しているので併せてご確認ください。