[レポート] Create a data marketplace with Amazon DataZoneに参加しました #AWSreInvent #ANT319
はじめに
データ事業本部のkobayashiです。ラスベガスで開催されていたre:Invent2024に現地参加しました。
本記事は AWS re:Invent 2024 のセッション「ANT319 | Create a data marketplace with Amazon DataZone」のセッションレポートです。
このセッションでは、AmazonのData Zoneを使用してデータマーケットプレイスをどう構築するのかのテーマでした。
データマーケットプレイスはデータプロデューサーがデータを共有し、データコンシューマーがそれを発見して使用する中央集権型プラットフォームとするべきで、それを実現するためにドメイン・プロジェクト・環境・ガバナンスをAmazon Data Zoneで実現できるということでした。
また合わせて自動メタデータ生成、データフィルター、AthenaやQuickSightなどのツールとの統合といったことも説明されました。またChalk Talkセッションなので後半では参加者からの質問を元に質疑応答が行われました。
セッションの概要
タイトル
ANT319 | Create a data marketplace with Amazon DataZone
概要
A data marketplace is an online location or store that allows individuals, organizations, and data providers to buy, sell, and exchange data. They act as an intermediary between data producers and consumers, providing a secure environment for data management and exchange. By using Amazon DataZone, businesses can democratize data-driven innovation, gaining a competitive edge in today's data-centric landscape. This chalk talk covers data sharing and data governance with Amazon DataZone, highlighting real-world use cases and best practices for creating a thriving data marketplace in an organization.
- Level: 300
- Session Type: Chalk Talk
スピーカー
- Joel Farvault, Specialist Solution Architect Analytics, Amazon Web Services
- Raj Ramasubbu, US,Specialist Sr. SA, Ana & AI, AWS
内容
はじめにアジェンダです。
- データマーケットプレイスとは何か?
- Amazon DataZoneがどのようにデータマーケットプレイスの実現を可能にするか?
- 実際に構築してみよう
What is a data marketplace?
データマーケットプレイスの定義は、データ生産者がデータ製品を共有し、消費者が発見、検索、使用できる中央集権型プラットフォームということでした。
データコミュニティの概念図の説明です。
- データプロデューサー
- 組織内の事業部門をイメージ
- データを理解しているのでデータ資産の管理とデータスチュワードシップ・ガバナンスの責任を負う
- データコンシューマ
- メーケティングなど異なる事業部門をイメージ
- 関連性が高く高品質なデータセットに迅速にアクセスすることが目的
- データの検索やアクセスの問題に多くの時間をかけずに関連データへのアクセス能力が欲しい
- データエコシステムの機能を担当するデータマーケットプレイスチーム
- 生産者と消費者の両方がデータマーケットプレイスを効率的に使用できるよう、標準技術を展開
データマーケットプレイスの概念を説明しています。左側の「データ生産者」は基本的なデータ(顧客、従業員、製品情報など)を提供します。中央の「データマーケットプレイス」は、データの品質管理、カタログ化、セキュリティ制御を行う場所です。右側の「データ消費者」は、これらの基本データを利用して、より高度な分析や製品(顧客360度ビュー、財務報告、需要予測モデルなど)を作成します。
重要なポイントは、データ消費者が新たなデータ製品を作り出し、それをまたマーケットプレイスに提供できるという循環です。これにより、組織内でのデータの効率的な共有と再利用が促進されます。また、適切なビジネスコンテキストの付加や細かいアクセス制御の設定により、データの価値と安全性が確保されると言うことでした。
How Amazon DataZone can be an enabler for your data marketppace?
次にAWSでどのようにdata marketplaceを実現するかの説明がありました。
次世代の Amazon SageMakerではデータとAIの安全な発見、管理、協力を可能にし、Amazon DataZoneとQ統合されていて、組織のデータ戦略とAI開発の効率化を目指す方には、この新しいガバナンス機能がお勧めということでした。
以下が説明の要約になります。
- Amazon SageMaker Data and AI Governanceは、データとAI資産の管理を一元化し、効率的に運用できるようする。
- 既存のData Zone利用者は現状維持可能ですが、新規ユーザーにはこの新機能の利用が推奨されている
- SageMakerユーザーは、既存のワークフローやツールをこの新機能と統合できる
- 主な特徴として、データ品質管理、分類、系統管理、権限設定、ガードレール、責任あるAI開発、コストログ記録などが可能
Amazon DataZoneは、データ管理と共有を効率化するサービスで主要コンポーネントは以下の通り
- ドメイン:事業部門ごとの論理的な境界
- ビジネスデータカタログ:データの詳細な説明と文脈を提供
- プロジェクトと環境:チーム協働のためのワークスペースとツール
- ガバナンスとアクセス制御:細かな権限設定が可能
- データポータル:ウェブアプリでデータ製品の管理・閲覧
- API:プログラムによるサービス操作
これらの機能により、データ生産者は様々なソースからデータを集約し、消費者は簡単にアクセス・利用できる。企業IDとの統合も可能で、データの発見から活用までをスムーズに行えるそうです。
Let's go build
ここからはホワイトボードを使って参加者とのデータマーケットプレースのアーキテクチャについての討論が行われました。
内容は Amazon DataZoneを使用したデータマーケットプレイスの構築プロセスについてです。主な手順として、データソースの特定、メタデータの抽出と登録、データ製品の文書化と分類、ドメインへの公開、ユーザーアクセスの設定、データ製品の購読と承認プロセスが挙げられました。
主な質疑応答:
Q: 自動メタデータ生成機能は、米国東部2リージョン以外でも利用可能になりますか?
A: 2024年第1四半期に他のリージョンへの拡大が計画されています。具体的な情報は後日発表される予定です。
Q: データ製品とデータセットの違いは何ですか?
A: データセットは個々のテーブルのスコープを指し、データ製品は複数のデータセットをまとめたものです。現在、フィルタリングはデータセットレベルで可能ですが、製品レベルでのフィルタリングは今後のロードマップに含まれています。
Q: データ共有のメカニズムはどのようになっていますか?
A: S3データの場合はLake Formationを使用し、Redshiftデータの場合はRedshiftデータ共有を使用します。これにより、データを移動せずにアクセスが可能になります。
討論では、DataZoneの機能を活用してデータガバナンス、メタデータ管理、アクセス制御を効率的に行う方法が強調されました。
まとめ
「ANT319 | Create a data marketplace with Amazon DataZone」のセッションレポートをお届けしました。
データマーケットプレースという考え方はなかったので斬新な内容でしたが、参加者の関心はかなり高いようで様々な議論がなされていました。
最後まで読んで頂いてありがとうございました。