[セッションレポート][ANA106] Google Cloud Next ’23時点におけるGoogle Cloudのデータガバナンスの新機能について学ぶ #GoolgeCloudNext

Dataplexを中心にGoogle Cloudでのデータガバナンスの新機能について紹介頂きました。特にDataplexを使った2社の事例紹介もあり、考え方が非常に参考になりました。データガバナンスに関心がある方にはおすすめのセッションです!
2023.09.08

データアナリティクス事業本部 機械学習チームの鈴木です。

Google Cloud Next '23のセッション『What’s new in data governance』を視聴したので感想をまとめました。

セッション概要

Today more than ever before, data is an organization’s strongest asset. However as data is getting more distributed and the demands on data are growing, (especially now in an AI-first world), organizations are struggling to realize value from their data. Join this session to learn how you can maximize the ROI on your data assets and drive business value by democratizing access to data, building trust in your data, and enabling governance at scale.

※ Google Cloud Next '23セッションページより引用

Google Cloudの、分散データに対するデータ管理・ガバナンスサービスであるDataplexの紹介が中心のセッションでした。事例としてCarrefour社とSnap社のユースケースも解説頂きました。

個人的にはCarrefour社のデータスーパーマーケットの事例が、データ管理・ガバナンス機能の必要性を理解する上でとても分かりやすいものだったので、聴講して非常によかったです。事例を踏まえて、どのようにDataplexでデータ管理・ガバナンス機能を実現するのか興味がある方はぜひセッションを見ていただけると良いと思います。

ポイントと感じた点

個人的にポイントと感じた点について触れられればと思います。詳細はセッションをご覧ください。

紹介された新機能

セッション中では以下の新機能について触れられました。

  • DataplexのデータカタログにVertexAIメタデータが収集されるように(プレビュー)
  • データプロファイリング(GA)
  • データ品質(GA)
  • DataprocのSparkジョブのデータリネージ(GA)
  • Duet AI in Datapex(Coming soonとのことでした)

DataplexでもDuet AIが出る予定なのは楽しみですね。

Dataplexの紹介

Google Cloudの、分散データに対するデータ管理・ガバナンスサービスであるDataplexの紹介がありました。

メタデータは対象のサービスに対して自動で発見されます。例えば、プレビュー提供として紹介されたVertexAIメタデータもそうですね。

Dataplexの紹介1

Discover・Secure・Trustの3つの観点でデータ管理とガバナンスを実現します。一般提供開始がアナウンスされたDataprocのSparkジョブのデータリネージは、Trustに含まれるデータリネージの機能ですね。

Dataplexの紹介2

このように、Dataplexがカバーするデータ管理・ガバナンスサービスの領域は、続々と新機能が追加され非常に大きなシステムを対象とした、興味深く重要な分野になります。

Carrefour社のデータスーパーマーケット

Carrefour社が開発・運用しているデータスーパーマーケットについての解説がありました。

個人的に、以下の2枚目の画像のように、データサイエンティストやアナリストが作成した分析結果をビジネスユーザーが得られるレストランのような「アナリティクスファクトリー」とは別に、スーパーマーケットのように消費者自らがデータを発見・消費できる機能が必要だという例えがとてもしっくりきたのでご紹介します。

データスーパーマーケットのビジョン1

データスーパーマーケットのビジョン2

データガバナンス機能やSelf-Service化などは、必要性は分かっていても実感レベルでピンとこないこともあるかもしれませんが、このビジョンのように食べ物の例に当てはめてみると、とても腑に落ちました。

世の中にレストランしかなかったら食事をするのが大変ですし、料理人が足りなくなって料理が出てくるのが遅くなり、食事をしたい人はイライラしてしまうかもしれません。そうであれば自炊できる人はスーパーマーケットで食材を買って自分で作れば、安く早く済みますしとてもいいですよね。ただし、スーパーで買い物をする人も、勝った食材が痛んでいたら困りますし、値札は見て買うものを選ぶと思いますし、人によっては原材料などの表示をみて購入するかもしれません。そういった食材を発見し、情報を確認する手立てが必要ですね。

改めてこれをデータに置き換えて考えると、データがいつできたもので・どんな品質状態で・どうやってできたものなのかを、データ品質やデータリネージ・メタデータで確認することはぜひできて欲しいことですね。また、そういったガバナンスができているなら、データを持ち寄って公開できるデータ共有の枠組みとして分散データの管理ツールを導入できると、アナリティクスファクトリーだけの世界よりもより多くのデータが素早く流通しそうです。消費者側も、スーパーで買った方が節約になって事足りるなら、自炊の練習をするようにデータ分析の練習をするようになって……と、組織内でのデータ活用力が上がっていく原動力にもなるかもしれません。

データスーパーマーケットで公開されているデータはどの程度生の状態に近いかで4つの分類に分けているそうです。これも店舗のスーパーマーケットと一緒ですね。もちろん並んでいるデータは製品として、管理された状態になっています。

データアソートメント

ビジネスユーザーがデータを発見し消費できるよう、データスーパーマーケットのアプリもあるそうです。これは多くの人がイメージするデータカタログに近いもので、データの検索機能やそのデータのプロファイリング結果や品質情報、サンプルの使い方などが分かるほか、セキュリティ上個別のユーザーが使っていいかデータかどうかの判断などもしているようです。データカタログとしてはDataplexで、その上にプレゼンテーション用のウェブUIを被せているようでした。

データスーパーマーケットのツール

Snap社でのDataplexによるデータメッシュ

Snap社では各チームがGCSに対してデータを製造していたため、分散データ全体を見て価値のある分析をする必要があるデータサイエンティストからすると、データがどこにあるのか分からない状態になっていたそうです。

データスプロールへのアクセス

起きてしまった課題を2つにまとめると以下でした。

  • ダークデータが存在する。型やスキーマが不明で使えなかったり、そもそもどこにあるのか分からないこともある。
  • Data Puddleになっている。あるチームのデータがほかのチームで使えるようになっていない。

データ分析で価値が発揮できないことも問題ですが、使えないデータが溜まることでストレージ料金が膨らんでしまうことも頭を抱える問題です。ガバナンスができないため、コンプライアンス上の問題につながる可能性もあります。

この状態を解決するために、Dataplexを使ってデータメッシュにする試みをされているそうです。DataplexであればGCSをはじめGoogle Cloud上のサービスからデータにまつわるメタデータを収集して管理できるようになるのでよさそうですね。

データメッシュへ

この活動を通して以下の4つのビジョンを達成することを目指しているそうです。特にダークデータとData Puddleの問題については、コスト面の負荷の原因になるため、ここを整理するだけでもかなりのメリットがあります。

データメッシュのビジョン

最後に

Google Cloud Next '23のセッション『What’s new in data governance』の感想でした。

Dataplexの紹介が中心のセッションでしたが、私は2つの事例を聞いて非常に興味を持ちました。Dataplexについては、日本語でもガイドが公開されています。

Dataplexを使って、どのような課題を解決し、どのようなビジョンを達成できるのか分かるとてもよいセッションだったと思います。ご興味がある方は是非ご覧ください。