[レポート] Achieve seamless and secure data sharingに参加しました #AWSreInvent #ANT325
はじめに
データ事業本部のkobayashiです。ラスベガスで開催されていたre:Invent2024に現地参加しました。
本記事は AWS re:Invent 2024 のセッション「ANT325 | Achieve seamless and secure data sharing」のセッションレポートです。
このセッションでは、 現代のデータアーキテクチャとデータ共有の課題について発表がありました。主な課題としてはデータサイロ・データコピーの多さ・そして分断されたガバナンスですが、これらの課題に対応するためにAWSではデータレイク共有のための「AWS Glue Data Catalog」データウェアハウス共有のための「Amazon Redshift」そして統合データアクセスのための「SageMaker Lakehouse」などのサービスがありその解説がありました。
また事例紹介ではOccidental社でのAWS Data ZoneとSageMaker Unified Studio を活用し、データコラボレーションとガバナンスを強化した内容の発表がありました。
さらに、サードパーティデータの共有のための AWS Data ExchangeやAWS Clean Roomsを使ったデータシェアリングについての説明もありました。
セッションの概要
タイトル
ANT325 | Achieve seamless and secure data sharing
概要
Data-driven organizations need to ensure that the right data is accessed by the right user for the right purpose—in accordance with the organization’s security regulations—without relying on individual credentials. Join this session to explore strategies for efficiently sharing data across teams and platforms while maintaining security and compliance with AWS analytics services. Learn best practices for managing permissions, encryption, and data governance to ensure secure and efficient data sharing across your organization.
- Level:300
- Session Type: Breakout session
スピーカー
- Jamey Johnston, Strategic Advisor, Data & Analytics, Occidental Petroleum Corporation
- Yanzhu Ji, Sr. Product Manager, Amazon Web Services
- Saurabh Bhutyani, Principal Analytics Specialist Solutions Architect, Amazon Web Services
内容
はじめにアジェンダです。
- 01 データ共有とセキュリティの課題
- 02 AWSにおけるデータ共有とコラボレーション
- 03 顧客事例
- 04 AWSにおけるサードパーティのデータ共有とコラボレーション
複数のソースからの調査によると、82%の組織が最高データ責任者(CDO)を任命し、94%の組織がデータ駆動型への投資を増やしていて、データ駆動型イニシアチブを成功裏に達成した顧客は、最大20%の収益成長を実現していますが、これらの投資がすべて成功しているわけではなく組織の4分の1しかデータ駆動型なっていないということです。
その原因として3点説明されました。
- データサイロの問題:
- 複数のリポジトリに分散したデータの連携に余分なコストがかかり、異なるエンジン間の相互運用性が限られている。
- データコピーの課題:
- データの分散により複製が必要となり、モデル変更時の同期管理が複雑化し、分析精度の低下リスクが高まる。
- ガバナンスの分断:
- 異なるリポジトリ間でアクセス制御が重複し、統一的な権限管理が困難になり、データ共有の効率が低下する。
AWSでは私たちが対応しているのは以下の4点ということです。
- ユーザーが適切なデータセットを効率的に発見し、特定できるようにし、データサイロを解消して、より迅速な意思決定を可能にする
- 遅延を最小限に抑え、リアルタイムでデータにアクセス可能にする
- データガバナンスポリシーのための堅牢なツールを提供し、組織内外での安全かつコンプライアンスに準拠したデータ共有を可能にする
- セキュリティの重要性を認識し、個人情報や顧客情報を保護することの重要性を理解しているため、これらの保護ポリシーをサポートすることが可能
Data sharing in data lakes
以下が説明の要約になります。
AWS Glue Data Catalogは、データレイク全体のメタデータを一元管理するストアとして機能し、効率的なデータ発見とガバナンスを実現します。Athena、Redshift Spectrum、EMRなど、様々なサービスと統合され、一貫した利用体験を提供します。
データ共有では、リソースリンクを通じて他のAWSアカウントとデータを共有でき、AWS Lake Formationで詳細なアクセス制御が可能です。受信者は通常のデータと同様にアクセスできますが、データ自体は所有者のアカウントに残ります。これにより、セキュアで効率的なデータ共有が実現できます。
Data sharing in data warehouses
以下が説明の要約になります。
Redshiftのデータ共有は、プロビジョニングされたワーククラスター/サーバーレスワークグループ(計算ノード)とAmazon Redshift Managed Storage(RMS)の2つの要素で構成されています。データはS3に保存され、クエリ実行時にメモリにキャッシュされます。
データシェアを通じて、他のクラスターやアカウントへの読み取り権限を柔軟に設定可能です。さらに、マルチデータウェアハウス書き込み機能により、データ消費者が元のデータベースに直接書き込むことができ、ETLワークロードの分散化が実現できます。
Data sharing in a lakehouse
以下が説明の要約になります。
Lakehouseは、データレイクの柔軟性とデータウェアハウスの高性能性を統合した新しいアーキテクチャです。Amazon SageMaker Lakehouseでは、S3とRedshiftのデータを単一コピーで統合し、様々な分析やAI/MLアプリケーションの構築を可能にします。
Apache Iceberg互換のツールやエンジンを通じて柔軟なデータアクセスを提供し、AWS Lake Formationで詳細な権限管理を実現。Glue Data Catalogを使用してデータの保存場所や形式を自由に選択でき、統一的なアクセスが可能です。
Data sharing in a data mesh
以下が説明の要約になります。
データメッシュは、データ管理の責任をドメイン指向のチームに分散させる新しいアーキテクチャです。データを深く理解している各ドメインの管理者が、データの品質管理やアクセス制御を担当し、中央集権的な管理から脱却します。
データは「製品」として共有され、単一または複数のデータ資産を組み合わせて提供されます。セルフサービスプラットフォームを通じて、ユーザーは必要なデータを発見・アクセスでき、ドメイン所有者による承認プロセスで適切なガバナンスを確保します。
Amazon Data Zoneは、データの生産者と消費者を効率的に結ぶプラットフォームです。GenAI機能を活用したビジネス用語集の生成や、ドメインベースの階層構造により、組織全体でのデータ理解と活用を促進します。
特徴的なのは、AWSコンソール外からアクセス可能なデータポータルで、企業の認証基盤との統合も可能です。ビジネスデータカタログを中心に、データの公開、発見、サブスクリプション管理を一元化し、プロジェクトと環境の概念を通じて柔軟な利用環境を提供します。
さらに、詳細なアクセス制御とガバナンス機能により、列レベル・行レベルでの権限管理が可能で、生産者と消費者の役割を柔軟に組み合わせられる真のデータメッシュを実現します。
NextGenのAmazon SageMakerのが発表され、SageMaker Unified Studioという統合された体験を提供するプラットフォームが公開プレビューとして利用可能になりました。このプラットフォームは、データアクセス、AI/MLモデルの開発、GenAIアプリの構築、SQLクエリの実行など、様々な機能を1つのインターフェースで提供します。組織内の異なる役割(ビジネスアナリスト、データ管理者、MLエンジニアなど)が協力して作業できる環境を実現し、AWS콘솔外で使用でき、企業の認証情報でログインすることも可能です。
SageMaker Data and AI Governanceによってパワーアップされたこのプラットフォームは、SageMaker Catalogを通じてデータ、モデル、GenAI、コンピュートリソースを統合的に管理します。さらに、Amazon Q統合により自然言語でのデータ検索が可能になり、データ品質、系統、アクセス制御機能も提供されています。プロジェクト単位でリソースとチームを管理できるため、組織全体のデータ活用とAI/ML開発を効率化し、コラボレーションを促進することができます。この新しいプラットフォームは、組織がデータとAIの力を最大限に活用するための包括的なソリューションとなることが期待されています。
Customer user case-Occidental
次にOccidentalの事例紹介がありました。
従来のオンプレミスデータウェアハウスから、AWSベースの新しいデータ分析プラットフォーム(ODAP)に移行しましたが主な特徴はとしては以下のようでした。
- アーキテクチャ:
- 13の生産者ドメインを持つデータメッシュ構造
- Amazon Data Zoneによるガバナンス管理
- S3、Redshift、IoT SiteWiseなど複数のサービスを統合
- 実現した改善内容:
- クラウドによる無制限のスケーラビリティ
- データの民主化とセルフサービス化
- 分散型アーキテクチャによる柔軟な運用
特に、GenAIを活用したチャットボット「Delta Cipher」により、エンジニアの分析作業を大幅に効率化しました。完璧を求めすぎず、ビジネス成果を重視する姿勢が成功の鍵となっているとのことです。
Third-party data collaboration
ここまでデータが常にAWS内にあり、AWSの組織内のアカウント間、プロデューサーとコンシューマー間で共有する場合でしたが、サードパーティのデータコラボレーションも必要になるユースケースがあるのでその場合の利用方法を説明していました。
1つ目は AWS Data Exchangeによるサードパーティデータの効率的なライセンス供与とアクセスを実現する5つの方式が示されました。
- Data Files:S3バケットへの自動エクスポートで、テキスト、画像、音声、動画など多様なデータに対応
- Amazon S3:既存のS3バケットから直接データアクセスが可能で、データ移動が不要
- Lake Formation:表形式データの共有
- Amazon Redshift:構造化SQLデータの共有
- APIs:サードパーティAPIの利用と管理
これらにより、データ共有の手間を大幅に削減し、効率的なデータ活用を実現できるようです。
またAWS Clean Roomsを使うことで基礎データを公開せずに複数組織間でのデータ分析を可能にすることも可能だということです。
- 差分プライバシーを活用し、生データを共有せずにインサイトを導出
- データ移動が不要で、既存のS3バケットから直接利用可能
- クエリ制御と強制機能により、生データへのアクセスを防止
- 保存中・転送中のデータの暗号化を確保
- APIを通じたプログラマティックなアクセスとカスタムアプリケーション構築に対応
これにより、プライバシーを保護しながら、組織間のデータ連携と分析が実現できるとのことでした。
まとめ
「ANT325 | Achieve seamless and secure data sharing」のセッションレポートをお届けしました。
最後まで読んで頂いてありがとうございました。