[レポート] How to build a business catalog with Amazon DataZone #ANT217 #AWSreInvent

2023.12.25

re:Invent 2023にて「How to build a business catalog with Amazon DataZone (ANT217)」を聴講したので以下のとおりレポートします。

セッション概要

概要

※概要文にはANT207と記載されていましたが、ANT217の記載ミスと思われます。

It is critical for organizations to effectively organize their data while ensuring the right access controls in order to drive timely discovery for increased business value. In this follow-up demo to ANT207, learn how to share, search, and discover data at scale across organizational boundaries through a unified data analytics portal with Amazon DataZone.

 

組織にとって、ビジネス価値を高めるためにタイムリーな検出を推進するには、適切なアクセス制御を確保しながらデータを効果的に整理することが重要です。この ANT207 のフォローアップ デモでは、Amazon DataZone を使用した統合データ分析ポータルを通じて、組織の境界を越えて大規模にデータを共有、検索、発見する方法を学びます。

スピーカー

  • Priya Tiruthani
    • Sr.Product Manager Technical Amazon DataZone (Amazon Web Services)
  • Leonardo Gomez
    • Pr.Big Data/ETL SA (Amazon Web Services)

レポート

ビジネスメタデータとAmazon DataZone

  • ビジネスデータカタログは、最新のビジネスニーズに合わせてスケーラブルになる必要がある
  • なぜビジネスメタデータが必要か
    • レコードやカラム名だけでは、エンジニア以外の組織内メンバーや他部署のメンバーから「実際にどんなデータが含まれているのか」がわかりにくい
    • 上記のような他メンバーと共有するのに必要な付加情報である
  • データアセットの登録と発見
    • Producersが、データをDataZoneのプロジェクトに登録することで、Consumersは自身がアクセス可能なプロジェクトの権限に基づいてデータにアクセスし、分析、BI、MLサービスに活用できる

  • 必要な情報
    • Assets
      • DataZoneのカタログに登録するデータソース
      • 例として「テーブル」「ビュー」「ダッシュボード」など
    • Business glossary
      • 登録したデータを組織のビジネス情報とひも付けるための付加情報を「用語集」として登録する
      • 組織がデータの理解のために一貫した共通認識を持たせるための用語
      • 例として「組織名」「システム名」「業務上で使う用語」など
    • Metadata forms
      • Business glossaryを含めた、組織ごとに使う用語セットをメタデータフォームとして登録し、新規追加されたデータアセットへのひも付けを行う

  • メタデータをカタログに追加
    • Business glossaryの登録は「どこに対して登録するか」「どのように登録するか」を使い分けてよりデータアセットの意味を深掘りできるようになる
      • メタデータフォームとして登録
      • アセット名に対してひも付くカタチで登録
      • アセット(テーブル)内のカラム名に対してひも付くカタチで登録

データ更新をどのように運用するのか

  • データセットのクロールはGlue Crawlerで実施している

  • メタデータの自動生成(新機能)
    • 多くの機械学習を使用してアセットと列の説明を取得して自動で生成できる

  • アセットタイプを使ったカスタムアセット
    • 現状DataZoneでサポートしているのは「Glueテーブル」「Redshiftテーブル」の2つのみ
    • アセットタイプを作って設定すれば、「他のデータソースからGlueテーブルやRedshiftテーブルにしたもの」としてグループを分けるかたちで管理できる

ビジネスメタデータ登録手順を説明するデモの様子

  • Business glossaryの作成

  • Term(1つのBusiness glossary内に含まれる用語)の作成(デモでは3つほど登録)

  • Metadata Formsを作成し、Business glossaryと関連づけてフォームを設計

  • また、データアセットは、登録時にメタデータを自動生成してくれるので「Accept All」を押すと承認

  • その後、「Metadata Formsの追加」「アセットやアセット内のカラムに対して個別にBusiness glossaryを追加」していく

所感

AWSのデータカタログツールであるAmazon DataZoneですが、データテーブルのカラムやデータ型などだけではデータの持つ意味や用途を瞬時に理解するのは難しいです。そのためにビジネス用語をデータとして生成してひもづけることは、組織全体のデータ活用において重要です。

とくに組織全体のデータ活用促進と文化醸成をスピード感を持った上で成功させるには、メタデータでデータをわかりやすくするというアクションは「新たな業務に対するとっつきにくさ」を軽減する効果がありますよね。

セッションにおいても、解説に必要な情報と適切なデモの長さと操作のやかりやすさもあって、非常に聞きやすいものでした。

これからDataZoneには「メタデータ登録の自動化」の機能をさらにパワーアップしてくれると嬉しいです。

さらにGlueジョブのメタデータを取り込んで「データリネージ」もカタログとして管理できるとより良くなりそう。

参考情報

Youtube