[レポート] Demystify and democratize access to your data with a business catalogに参加しました #AWSreInvent #ANT202

[レポート] Demystify and democratize access to your data with a business catalogに参加しました #AWSreInvent #ANT202

Clock Icon2024.12.09

はじめに

データ事業本部のkobayashiです。ラスベガスで開催されていたre:Invent2024に現地参加しました。
本記事は AWS re:Invent 2024 のセッション「ANT202 | Demystify and democratize access to your data with a business catalog」のセッションレポートです。

このセッションでは、一般的なビジネスデータカタログの戦略的重要性とデータガバナンスにおけるその役割とデータカタログの中で使われる共通言語、用語集、分類法の解説がありました。
またAWS Glue Data CatalogやSageMaker Data CatalogなどのAWSサービスの解説とそれらのサービスでメタデータ管理を自動化し、データ品質の向上方法の解説がありました。
また事例紹介としてBMSでの取り組みでDataZoneを使用してセルフサービスアクセスを改善し、ガバナンスプロセスを合理化した話がありました。

セッションの概要

タイトル

ANT202 | Demystify and democratize access to your data with a business catalog

概要

Understanding your data in context means that all users can discover and comprehend the meaning of their data so they can use it confidently to drive business value. With a centralized data catalog, data can be found easily, data quality can be quantified and tracked with lineage, access permissions can be requested and provisioned, and data can be used to make business decisions. In this session, learn how Amazon DataZone, AWS Glue Data Catalog, and AWS Lake Formation help you build a catalog accessible to all of your data marketplace users.

  • Level:200
  • Session Type: Breakout session

スピーカー

  • Haribabu Muppanani, Director - Data Platfroms, BMS
  • Leonardo Gomez, Principal Big Data Specialist Solutions Architect, AWS
  • Luis Campos, Data & AI GTM Specialist, AWS

内容

はじめにアジェンダです。

  • なぜデータサイエンスにおいてコンテキストが重要なのか?
  • ビジネスデータカタログの重要性
  • エンタープライズデータカタログのAWSビルディングブロック
  • デモ: ある企業の一日
  • 事例紹介
    IMG_3857

考古学とデータサイエンスの類似点を指摘し、コンテキストの重要性とデータ発見におけるカタログの役割の説明がありました。
考古学とデータサイエンスには共通点があり、より多くの遺物や、より多くのデータポイントを収集するほど、コンテキストやデータセットが豊かになるが、大きな違いとして考古学では発見がカタログを作り上げるが、データサイエンスではカタログが新たな発見を可能にするということでした。

IMG_3859

IMG_3860

次は共通言語の必要性とその役割の解説でした。
コンテキストを持つためには共通言語が必要でこれには、

  1. 用語の合意された定義(用語集や語彙)が含まれる。
  2. 次に、用語を階層的に整理するための分類法が必要になる。
  3. さらに、エンティティ、属性、関係を定義するためのオントロジーが重要となる。

従って、ビジネスデータカタログの重要性はすべてがコンテキストから始まるという点にあるということでした。

IMG_3863
IMG_3864

次にデータカタログについての以下のような解説がありました。
データカタログは技術的メタデータ(原子番号など)とビジネスメタデータ(用途や品質など)の2層構造で構成されている。技術層は自動収集が可能ですが、ビジネス層は手動でのキュレーションが必要で、この2層構造により、技術者とビジネス利用者の双方がデータを理解・活用できるようになる。これによってデータの文脈や意味を伝える重要な仕組みとして機能する。

IMG_3872

また、宝飾品業界の例として各役割で使用するカタログが異なることを解説されていました。
ビジネス消費者は指輪を販売するB2C領域では在庫供給やデザインカテゴリー、カラットなどの情報を必要とする。一方で、職人や作業員がいる指輪工場では、パイプラインがどのように来ているか、人々が買っているか、十分な人がいるか、十分な原材料があるかといった情報が必要になる。これは、異なるユーザーは異なるものを見たり、消費したりするが、カタログは全体として一つであり、強力なコンテキストを提供しているとのことでした。

IMG_3873

次に構造化および半構造化データの技術的メタデータを管理するGlue Data Catalogの役割の説明がありました。
特に強く語られていたのが、データ管理において重要なのはパーティション情報やデータ型、インデックスなどの技術的メタデータで、これらはデータの最適化や共有に不可欠となる。AWS Glue Data Catalogは、構造化・半構造化データを自動的にカタログ化し、データ品質スコアも生成でき、これにより開発者は効率的にデータを理解・活用できるようになるということでした。

IMG_3876
IMG_3879

データカタログシステムの全体像についての解説でした。
データカタログは2つの主要な層で構成されている。

  • 技術層:
    • Glue Crawlerによる自動メタデータ収集
    • データ型、パーティション、インデックス情報の管理
    • データ品質スコアの自動生成と監視
  • ビジネス層:
    • 用語集やカスタムメタデータフォームによる文脈付け
    • データリネージによるデータの出所と影響範囲の可視化
    • アクセス制御と承認プロセスの管理

この2層構造により、技術者とビジネスユーザーの両方がデータを効率的に探索・活用でき、マーケットプレイス的な検索体験で、必要なデータの発見から利用申請、承認までをスムーズに行えるようになる。これを実現するために Amazon DataZoneとSageMaker Data Catalogがあり、技術面とビジネス面の両方のニーズに対応した統合的なデータ管理が可能になる。

  • 技術的メタデータの管理:
    • パーティション情報、データ型、インデックスなどの基本情報
    • AWS Glue Data Catalogによる自動カタログ化
    • S3、RDS、Redshiftなど様々なデータソースに対応
    • データ品質スコアの自動生成と監視
  • ビジネス向け機能:
    • ビジネスグロッサリーによるコンテキスト付与
    • カスタムメタデータフォームでの柔軟なドキュメント化
    • 部門別の整理とアクセス管理
    • データの可視性向上とシンプルなUI

IMG_3887
IMG_3892

デモではSageMaker Data Catalogの新UIで技術カタログとビジネスカタログを統合的に管理でき、GenAIによる説明文生成、カスタムメタデータフォーム、アクセス制御、データ品質スコア、データリネージの可視化など、包括的な機能を提供し、データ所有者による承認プロセスを経て、ユーザーは必要なデータに安全にアクセスできることを画面を使って説明されていました。
IMG_3894

最後にBMS社の事例紹介がありました。その中ではAIの急速な普及に対応するため効率的なデータガバナンスシステムを構築を行い、データの発見可能性向上・迅速なインフラ提供そして最適化された承認プロセスが必要になるがそれを可能にしたのがDataZondであった。実装では、中央チームが標準化と共通基盤を提供しつつ、データ提供側には異種データに対応できる柔軟性を利用側には既存ツールとの統合を重要視した。
この取り組みにより、18ヶ月という短期間でAI用データの品質を5倍に向上させ、部門間のデータ統合も効率化した。 現在はGenAIを活用したデータ活用の自動化も推進しているということでした。

IMG_3900
IMG_3901

まとめ

「ANT202 | Demystify and democratize access to your data with a business catalog」のセッションレポートをお届けしました。

データカタログの概念の解説やそれをAWSのサービスでどう実現するかを解説する良セッションでした。

最後まで読んで頂いてありがとうございました。

Share this article

facebook logohatena logotwitter logo

© Classmethod, Inc. All rights reserved.