[レポート] Model your business structure with Amazon DataZoneに参加しました #AWSreInvent #ANT321
はじめに
データ事業本部のkobayashiです。ラスベガスで開催されていたre:Invent2024に現地参加しました。
本記事は AWS re:Invent 2024 のセッション「ANT321 | Model your business structure with Amazon DataZone」のセッションレポートです。
このセッションでは、Amazon DataZoneを活用して組織の業務構造をモデル化し、効果的なデータガバナンスを実現する方法が紹介されました。データ共有と検索に関する一般的な課題から始まり、ドメインユニットと認可ポリシーという新機能の概要が説明されました。自動車業界のケーススタディを用いて、IT管理者、ビジネスリーダー、データプラットフォーム管理者、アナリストなど、異なる役割の責任が詳細に解説されました。
AWSコンソールとDataZoneポータルの使用方法も実践的に示され、組織構造の設計、認証メカニズムの設定、ブループリントの構成、ドメインユニットの作成、認可ポリシーの割り当てなどが具体的に説明されました。また、中央集権型と分散型のアプローチの違いや、クロスアカウント・クロス組織でのデータ共有における課題についても説明がありました。
またChalk Talkセッションなので後半では参加者からの質問を元に質疑応答が行われました。
セッションの概要
タイトル
ANT321 | Model your business structure with Amazon DataZone
概要
Amazon DataZone enables organizations to model their business structure effectively, aligning data with operational domain units, authorization policies, and business context. Learn how to organize, create, search, and find data assets and projects associated with business units or teams while setting access policies for creating projects, glossaries, and using compute resources within Amazon DataZone. Join this chalk talk to gain new insights, optimize processes, and deliver data-driven decision-making.
- Level:300
- Session Type: Chalk talk
スピーカー
- David Victoria, Senior Product Manager, Amazon
- Nishchai JM, Sr Solution Architect, Amazon Web Services
内容
はじめにアジェンダです。
- Customer challenges
- Domain units and authorization policies
- Case study
- Design session
- Demo
- Q&A
Customer challenges
顧客が直面している課題の解説でした。
- ビジネス領域別にプロジェクトを整理し、ビジネスデータカタログからデータ資産を効果的に検索する能力の欠如
- オブジェクト(プロジェクト、メタデータフォームなど)を作成する人や、リソースを起動する人を制御する能力の欠如
これらの課題は、組織内でのデータ管理と利用に関する重要な問題点で、効果的なデータ組織化と検索、そしてデータ関連のアクティビティに対する適切なアクセス制御が必要である。
これらの課題に対処することが、このセッションで紹介されるAmazon DataZoneの機能の主な目的となる。
Domain units and authorization policies
Amazon DataZoneは、組織全体でのデータ管理と共有を効率化するサービス
- データプロデューサー(データエンジニアやデータサイエンティスト)がデータを簡単に共有し、ビジネスコンテキストを追加できる
- データコンシューマーはそのデータを検索、アクセス、分析できる。
また新たに導入されたドメインユニットと認可ポリシーにより、事業部門ごとの組織階層の設定やデータアセットの管理が可能になった。これにより、ビジネスユーザーは関心のある部門のデータを容易に閲覧・検索でき、同時にデータやエンティティへのアクセス制御も実現していて。DataZoneは、メタデータを通じて組織の垣根を越えたデータのカタログ化、発見、共有、ガバナンス、分析を可能にするとのことです。
Amazon DataZoneのドメインユニットと認可ポリシーは、組織構造を反映した階層的なデータ管理システムを提供している。
- AWSコンソールでドメインを作成すると、それがDataZoneポータルのルートドメインユニットとなる。
- ユーザーはこの構造の中で、ビジネスに合わせたサブドメインを作成できる。
- 例えば、セールス部門の下にセールスオペレーションやOEMセールスなどのサブユニットを配置できる。
- 各ドメインユニットには独自の所有者がおり、そのユニット内での認可ポリシーを管理する。
これらのポリシーは、ユーザーやプロジェクトが作成できるオブジェクトの種類を定義し、組織全体でのデータガバナンスを効果的に実現できるとのことです。
Amazon DataZoneの認可ポリシーは、ユーザー、プロジェクト、リソースの3つのカテゴリーに分かれている。
- ユーザーポリシー
- ドメインユニットやプロジェクトの作成、参加に関する権限を定義する。
- プロジェクトポリシー
- メタデータフォームや用語集、カスタムアセットタイプの作成を管理する。
- リソースポリシー
- 環境プロファイルの作成とリソースの起動を制御する。
これらのポリシーは各ドメインユニットに標準で付属し、ドメインユニット所有者が管理する。
この階層的なポリシー構造により、組織は柔軟かつ細かなアクセス制御を実現し、効果的なデータガバナンスを確立できる。
Case study
自動車業界を中心としたケーススタディでした。
- 架空の自動車会社のデータ責任者がいる
- すでにデータコラボレーションプラットフォームを持っている
- 今探しているのはデータを保護し、すべてのガバナンスプロセスを適用するメカニズム
また登場人物は4人いて以下のようでした。
- Fred(インフラ担当)
- 役割:ITアプリケーション管理者
- 責任:
- AWSコンソールでの環境構築
- ドメイン管理(所有者追加、ユニット作成)
- ポリシー割り当てと認可管理
- リソース起動の制限設定
- Mary(ビジネスライン代表)
- 役割:販売/サプライチェーンリーダー
- 責任:
- ドメインユニットの管理
- 認可ポリシーの作成と管理
- 子ドメインユニットの監督
- Mike(データプラットフォーム担当)
- 役割:データベース管理者/データスチュワード
- 責任:
- プロジェクト作成と管理
- データカタログの整備
- アセット検証と公開管理
- アクセス要求の承認/拒否
- Adam(分析担当)
- 役割:BIアナリスト
- 責任:
- データ分析の実行
- 新規アセットの作成
- プロジェクトリソースの利用
- 分析結果の公開
- 責任:
- 役割:BIアナリスト
会社には販売、物流、エンジニアリング、人事などの部門が、それぞれデータ製品を生成し、データパイプラインを通じて他の部門と共有している。各部門には独自のドメインチームがあり、データの生成から消費まで管理している。
例えば、販売オペレーションチームが生成したデータは、ディーラー販売チームによって消費される。この構造により、データの連邦型ガバナンスが実現され、各チームが自身のデータに責任を持ちつつ、必要に応じて他部門とデータを共有できる。
DataZoneは、このような複雑なデータ共有と管理を可能にし、組織全体でのデータ活用を促進できる。認証メカニズムとしては、IAMユーザー/ロール、IAM Identity Center(SSO)、フェデレーテッドユーザーなどが使用されている。
Design session
次にDataZoneポータルで使用している認証メカニズムについての説明がホワイトボードを使ってありました。
- Fred (ITアプリケーション管理者):
- AWS DataZone管理者としてログイン
- ルートドメイン (XYZ Auto) を作成
- ドメイン作成の権限をMaryに付与
- Mary (販売/サプライチェーンリーダー ):
- ドメイン所有者としてログイン
- Salesドメインを作成
- Salesドメイン下にSales OpsとDealerドメインを作成
- プロジェクト作成の権限をMikeに付与
- Mike (データベース管理者/データスチュワード ):
- プロジェクト所有者としてログイン
- Sales Opsプロジェクトを作成
- プロジェクトメンバーシップの権限をAdamに付与
- Adam (BIアナリスト):
- プロジェクトメンバーとしてログイン
- Sales Opsプロジェクト内でデータセットを操作
- 用語集(Glossary)とメタデータフォームを作成・編集
各レベルで、上位の役割が下位の役割に特定の権限(ポリシー許可)を付与することで、階層的かつ細かなアクセス制御が実現されています。これにより、組織構造に沿った詳細なデータガバナンスが可能になり、各役割に応じた適切なデータアクセスと管理が確保されるとのことでした。
Demo
デモでは実際のDatazoneの画面を使っての説明がありました。
Q&A
主な質疑応答
Q: プロジェクトはクロスアカウント、クロス組織で機能するか?
A: 可能だがデータ共有に関しては少し複雑になる可能性がある。
Q: DataZoneの主要コンポーネントは?
A: ブループリント、環境、プロジェクト、ビジネスカタログ、用語集、メタデータフォームなどでこれらを使ってデータセットを管理し、データ製品を作成する。
Q: Trusted identity propagationはどのように機能するか?
A: QuickSightやRedshiftを通じて行われる。データレイクの場合、QuickSightが権限を取得しそこから伝播する。
Q: ドメイン所有者は技術的な部分をどの程度理解する必要があるか?
A: 主に対象ユーザーと彼らの責任を理解することが重要で技術的な詳細は主にIT管理者が担当するべき。
Q: 外部データソースを扱うことはできるか?
A: Oracle databaseなどの外部ソースをクロールし、ETLを使用してS3に取り込むか、Glueクローラーを使用してAthenaでクエリすることができる
まとめ
「ANT321 | Model your business structure with Amazon DataZone」のセッションレポートをお届けしました。
最後まで読んで頂いてありがとうございました。