[レポート]Modernize your analytics architecture with Amazon Athena (Data Meshパート) #ANT327 #reInvent

2022.11.30

データアナリティクス事業本部の笠原です。

ANT327『Modernize your analytics architecture with Amazon Athena』を聴講しましたので、そのレポートです。

セッションについて

登壇者

  • Daniel Chen, Senior Product Manager, AWS
  • Saurabh Bhutyani, Principal Analytics Solutions Architect, AMAZON WEB SERVICES

Session Level

300 - Advanced

Session Type

Chalk Talk

セッション概要

このトークセッションでは、Amazon Athenaのデータソースコネクタとオープンデータフォーマットを使用して、データメッシュ、ファブリック、仮想化などの最新の分析アーキテクチャを設計および実装し、データサイロを破壊して分析の俊敏性を促進する方法を学びます。

セッションは大きく分けて、機械学習・データ可視化・データメッシュの3つの観点で説明されており、 私の記事では、データメッシュの部分についてご紹介いたします。 機械学習・データ可視化の部分については、 @nayu_t_sレポート記事を参照ください。

レポート

データメッシュ

データメッシュはモダンなデータアーキテクチャパターンの1つです。 以下の4つの基本原理があります。

  • Domain ownership (ドメインにオーナーシップがある)
  • Data as a product (製品としてのデータ)
  • Self-serve data platform (セルフサービスデータプラットフォーム)
  • Federated computational governance (統一的なコンピューティングガバナンス)

データに近いドメインにオーナーシップがあり、データは製品のように扱います。 例えば小売業の場合は、salesの他にsupply chainやmarketingなどの複数のドメインがあります。 各ドメインが持つデータは、各ドメインが責任を持って管理します。 他のドメインがそのデータを使って分析するためには、ドメインから提供される分析データは製品として扱います。

製品としてのデータとは、以下のような特徴を持っています。 各ドメインで管理されているデータを他のドメインでも迅速に利用できるように、 データコントラクトを整備し、読み取り専用として提供します。 データの管理はあくまでもオーナーのドメイン側で、独立して管理してます。

データドメイン側の"producer"がデータ製品をAthenaで作る方法を示します。 producer側は自らが管理するデータパイプラインを介して、S3バケットにデータを取り込みます。 producer自身は、管理下にある全てのデータのライフサイクル全般に関わる責任をもつ所有者となります。 producerはデータ利用者側("consumer")がデータを発見できるように、データをカタログ化します。 また、fine grained access controlを実施するために、Federated data governanceモデルを通じてデータをアクセスを制御します。

データメッシュアーキテクチャを用いることで得られる成果は以下のとおりです。

  • ビジネスドメインデータレイクの独立した配信を加速化します
  • ドメイン内のデータセキュリティとコンプライアンスを向上させます
  • セルフサービスによるデータプロダクトの作成、発見、サブスクリプションを実現します
  • コンシューマーがデータ製品に透過的にアクセスできます
  • 長期的なアクセスの監視、監査、管理を行います

データメッシュ共通パターン

Hub and spoke

  • producerはconsumerにデータを直接共有します
  • 分権型ガバナンス
  • 中央データカタログなし
  • シンプルなセットアップとスタートアップが可能です

Athenaで実装すると以下のような構成になります。 producerは、Athenaで抽出したデータをLake Formationを経由して、consumerに共有します。 consumerは、共有されたデータから、自身に必要なデータをAthenaで取得して利用します。

Centralized governance

  • producerは中央のカタログを経由してデータを共有します
  • 中央集権的なガバナンスと監査を行います
  • 統合されたアクセス制御が可能です
  • 統一されたポリシー管理も可能です

Athenaで実装すると以下のような構成になります。 producerとconsumerの間にgovernanceを設置し、ここでデータカタログやアクセス管理等を行います。

最後に

ANT327 『Modernize your analytics architecture with Amazon Athena』のレポートでした。 データメッシュについては大規模なデータ管理における分散型アプローチとなっています。 まだ私自身もデータメッシュに関わる事例に関わっていないため、今後のソリューションの一つとしてさらに学んでいきたいと思います。