[レポート] Data Catalog for Data Discovery and Metadata Management – Google Cloud Next ’20: OnAir #GoogleCloudNext
現在、2020年7月14日から9月8日までの数週間にわたってGoogle Cloudのデジタルイベント『Google Cloud Next ’20: OnAir』が開催されています。
このイベントでは、2020年7月14日から毎週、異なるテーマで様々なセッションや催しのコンテンツが公開されています。(コンテンツは PDT[米国太平洋標準時(夏時間)]での火曜日午前9時→JST[日本時間]の水曜午前1時に配信される形になっています)
- 1.[2020/07/14〜] Industry Insights
- 2.[2020/07/21〜] Productivity & Collaboration
- 3.[2020/07/28〜] Infrastructure
- 4.[2020/08/04〜] Security
- 5.[2020/08/11〜] Data Analytics
- 6.[2020/08/18〜] Data Management & Databases
- 7.[2020/08/25〜] Application & Modernization
- 8.[2020/09/01〜] Cloud AI
- 9.[2020/09/08〜] Business Application & Platform
当エントリでは、その中から「Data Analytics」のセッションとして公開された『Data Catalog for Data Discovery and Metadata Management』の内容について紹介していきたいと思います。
目次
セッション概要
公式ページで紹介されているセッションの概要情報は以下の通り。
Data Catalog for Data Discovery and Metadata Management
(データ発見とメタデータ管理のためのデータカタログ)
Speakers(講演者):
Shekhar Bapat (Product Manager / Google Cloud)
Shruti Thaker (Head of Alt Vendor Data & Alpha Capture / BlackRock)
Description(説明):
Data discovery and metadata management is a common pain point for most enterprise customers. Data Catalog is a managed service that addresses this pain point with a scalable and performant solution. Data Catalog offers integration with DLP for auto detection and tagging of sensitive data and facilitates better data governance. Data Catalog also provides support for non-Google Cloud data assets and enables customers to discover, understand, and manage ALL their data. The session is co-presented with Shruti Thaker from BlackRock, a Data Catalog customer. Shruti will share how BlackRock is using Data Catalog to create an effective metadata solution for BlackRock data assets.
(データの発見とメタデータの管理は、ほとんどの企業顧客にとって共通の悩みの種です。データカタログは、スケーラブルでパフォーマンスの高いソリューションでこの問題を解決するマネージドサービスです。データカタログは、機密データの自動検出とタグ付けのためのDLPとの統合を提供し、データガバナンスの向上を促進します。また、データカタログはGoogle Cloud以外のデータ資産にも対応しており、顧客はすべてのデータを発見、理解、管理することができます。このセッションでは、Data Catalog のお客様である BlackRock の Shruti Thaker が共同で講演を行います。Shruti は、BlackRock がどのようにしてデータカタログを使用して BlackRock のデータ資産のための効果的なメタデータソリューションを作成しているかを紹介します。)
セッションレポート
データカタログとは
- システム内にバラバラに分散している大量のデータに直面している組織は、データ発見のための効果的なソリューションを必要としている
- データカタログにより、ユーザーはすべてのデータ資産を発見、理解、管理することができる
- 参考:
データカタログアーキテクチャ
- GCPデータ資産から得られる技術メタデータをほぼリアルタイムで自動同期
- DLPを介した自動タグPII(=個人を特定できる情報)データ
- オープンソースのコネクタを使用することで、非GCPデータリソース(Hive, Oracle, SQL Server, Teradata, Redshift, MySQL, PostgreSQL, Looker, Tableau)等もサポート
- データカタログの概要 | Data Catalog のドキュメント | Google Cloud
- 技術的なメタデータの自動取り込みのためのリアルタイム及びバッチシンカー
- Cloud Spanner:すべてのメタデータを保存するためのグローバルに分散された強力で一貫性のあるデータベース
- Google検索インデックス:データ発見のためのACLチェックを内蔵
- GMailやGoogle Driveと同じテクノロジーを活用した仕組み
ビジネスメタデータ用構造化タグ
テンプレートとタグ
タグ生成用のテンプレートを定義し、テンプレートを使用して個々のデータ資産(data assets)にタグを付与する
指先でデータを発見
シンプルなキーワード検索インタフェースにより、ビジネスユーザーと技術ユーザー双方の活用が可能に
IAMによるメタデータアクセス管理を実現
以下のような形で、IAMを用いて細かなメタデータへのアクセス制限を実現可能。
- データガバナー
- パーミッション:全てのプロジェクトへの読み取りを許可
- ビュー:全てのデータ資産の発見、全てのデータ資産への読み取り許可
- データアナリスト
- パーミッション:
- プロジェクトA:読み取り許可
- プロジェクトB:メタデータ読み取り専用
- プロジェクトC:読み取りまたはメタデータの読み取りアクセス無し
- ビュー:
- プロジェクトA: データ資産を発見し、読み取ることができる
- プロジェクトB:データ資産を発見できるが、読み取りアクセスを要求する必要がある
- プロジェクトC:視認性がない
- パーミッション:
APIを利用したプログラムアクセス
- API とリファレンス | Data Catalog のドキュメント | Google Cloud
- 完全なメタデータへのアクセスのための読み取り、書き込み、検索APIを提供
- メタデータの一括更新を支援
- Python、Java、Node.js、Go、Ruby、C#、PHP言語の各種ライブラリ
- APIでエンタープライズアプリケーションとカスタムフロントエンドを実現
データ発見における「逆風」に対し、データカタログでニーズに応える
- 変化の激しい、新しいデータが都度大量クラウドに入ってくる
- オフィスや国を超えて広がるデータの利用者
- 技術的な専門知識のレベルが異なるユーザー
- 全てのデータで動作する、オンプレミスのインデックス作成ソリューションが無い
Google Data Catalogを使うと、以下のような対応が可能となる
- データカタログ、BigQuery、およびその他のGCP機能との強固な統合により、社内のデータディスカバリーアプリを強力にサポート
- テンプレートやタグを簡単に自作可能に
- Cloud DLPを使用したオンボーディングでの機密データの自動タグ付けにより、機密データを保護
次のステップ
- データカタログを起動してすぐに「データの発見」を開始 – Google Cloud Platform
- DLP を使用してデータカタログの Pll データを自動タグ付け
- オープンソースのコネクタを使用して、GCPと非GCPデータ資産の統一されたビューを取得
まとめ
という訳で、Google Cloud Next ’20のテクニカルセッション『Data Catalog for Data Discovery and Metadata Management』のレポートでした。ざっくり概要は掴む事が出来ましたがやはり挙動を確かめてみないことには理解もしっくり来ません。なので時間を見つけて実際にGoogle Data Catalogを触る機会も設けてみたいと思います。