[レポート]新発表されたAmazon DataZone(プレビュー)でガバナンスとデータの民主化を #ANT344 #reinvent

2022.12.19

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

データアナリティクス事業本部の鈴木です。

AWS re:Invent 2022のAdam Selipsky Keynoteにて、Amazon DataZone(プレビュー)の発表がありました。

セッション番号ANT344の『[NEW LAUNCH!] Democratize data with governance: Bring together people, data, and tools』で、より詳細な情報が説明されていたので、レポートです。

セッションについて

登壇者

  • Nanda Vijaydev, Sr. Product Manager, AWS
  • AMIR BAR-OR, Principle Engineer, AWS
  • Dave Geyer, Data Lab Architect, Amazon Web Services

Session level

300 - Advanced

Session type

Breakout Session

動画

セッション概要

新しく発表されたAmazon DataZoneを利用して、どのように組織が課すセキュリティやガバナンス対策に準拠しつつ、データを活用することができるのか紹介されました。

今日ではあらゆる組織で、データがイノベーションを推進し、よりよい顧客の体験を支えていることを理解していると思います。そのために必要なデータは分析者や分析用のシステムからアクセスできる必要がありますが、組織が課すセキュリティやガバナンス対策に準拠して活用を行う必要があります。このセッションを通して、AWSのアナリティクス系サービスを使って、組織の境界を越えてデータを発見し、アクセスし、共有する方法を学びます。

Amazon DataZoneについては以下を参照ください。

発表概要

コンセプトについて

データを使って意思決定を行う組織は、そうでない組織よりも平均30%成長率が高いそうですが、実際のところデータをうまく活用することはとても難しく、例えば以下のような声が寄せられています。

お客様の課題

これらの声から、以下の5つのテーマをまとめました。

5つのテーマ

これらの課題を解決すべく、組織内のすべての人・データ担当者が協力してデータを発見・アクセス・共有・管理できる"ゾーン"というべき統合環境を、Amazon DataZoneが提供します。

データゾーン

ユースケースとしては、以下のキャンペーン分析のような図式のものをAmazon DataZoneでは解決するそうです。

ユースケース

構成要素

Amazon DataZoneの構成要素としては以下の4つが紹介されました。

  • ビジネスデータカタログ
    • アクセス可能なデータを可視化する
  • データプロジェクト
    • ユーザー同士の共同作業・データや成果物の共有を支援する
  • ワークフロー
    • ビジネスユニットやプロジェクトで、誰がどのような目的でデータにアクセスし、使用しているかを確認できるようにする
  • データポータル
    • データの検索・発見・理解を支援する

構成要素

ログインしてワークフローを使って分析プロセスを実行したり、データポータルでデータを発見したり、新しくカタログを作成したりなど、データ活用に必要な機能の大部分をAmazon DataZone一つで行うことができるようです。

特に中核となるデータポータルは以下のような画面です。検索キーワードでデータの検索が可能な上、検索フィルターを使用して、ビジネス・ユースケースのコンテキストで絞り込んだ検索をすることもできます

データポータル1

データポータル2

ドメインや組織階層により、組織ごとのガバナンス要件を実現することができます。

ドメインと階層

Amazon DataZoneはGlueデータカタログやRedshiftのデータから直接カタログを作成することが可能なため、それらに紐づく多くのサービスのデータをカタログ化できます。

データカタログの作成

データアセット(テーブル、ファイル、ダッシュボードなど)が最小単位で、テーブルの説明やカラム名などの情報を持っています。メタデータフォームを設定することで、どの情報が必須かなどの制限や推奨値を指定することができます。また、ビジネス用語集を使うことにより、データ同士の意味づけもできるようです。

データアセット

プロジェクトは、メンバー・データアセット管理・AWSリソース・データアセットなどをまとめるための単位として機能しています。プロジェクトのユーザーはいつでも追加・削除が可能です。各プロジェクトのメンバーは、誰がアクセス要求やデータの使用をしているかを把握し、監査できるようになります。

プロジェクト

クエリの仕組み

ユースケース

Amazon DataZoneでは、データメッシュのようなアーキテクチャにまで利用することができます。

モダンなデータアーキテクチャ

DataZoneとデータメッシュ

プロジェクトの機能を利用することで、プロジェクト間でデータの発見・検索を制御することができます。

DataZoneとデータメッシュ2

以下はドメインでのデータのパブリッシュ・サブスクライブの仕組みです。パブリッシュでは、メタデータフォームを利用することで、データカタログに必須なデータ項目などの要件を定義することができます。また、作成されたデータアセットをデータスチュワードがレビューし、承認することでデータカタログに掲載されるようになります。

self-service分析

パブリッシュの合意

データアセットのパブリッシュ

データの消費者側は、必要なデータを発見したらサブスクライブをドメインに対して申請し、承認者はリクエスト内容を確認した上で、それを承認するか拒否するか決めることができます。サブスクライブが承認されれば、フルフィルメントが開始され、サブスクライブするプロジェクトのデータアセットへのアクセスができるようになるようです。

データアセットのサブスクライブ

現在のプレビューバージョンでは、Amazon DataZoneは、GlueのテーブルとRedshiftテーブルのフルフィルメントをサポートしているので、その例の紹介もありました。コンシューマーとプロデューサーは、別のアカウント・別リージョンでも問題ないそうです。

Redshiftの例

終わりに

今回はre:Invent2022で行われた『[NEW LAUNCH!] Democratize data with governance: Bring together people, data, and tools』のレポートでした。

Amazon DataZoneには単純なデータカタログの機能だけではなく、ドメインやデーカタログのパブリッシュやサブスクライブ機能など、さまざまなデータガバナンスのための機能が実現されており、AWS上でより強力なデータ分析基盤を構築することができるようになります。また、データメッシュアーキテクチャを取り入れ、よりスケールするデータ分析基盤を目指す際にも、とても重要なサービスになりそうです。

今回のセッションではコンセプトや仕組みの説明が中心だったので、今後より詳細なドキュメントやプレビュー版など出てきましたら、そちらについても共有させて頂ければと思います。