【レポート】データ活用を推進するAWSのモダンデータ戦略とデータガバナンス (AWS-37) #AWSSummit

2022.05.27

本記事は、2022/05/26(木)に行われた AWS Summit Online 2022 のオンラインセッション「AWS-37 : データ活用を推進するAWSのモダンデータ戦略とデータガバナンス」のレポート記事となります。

セッション情報

登壇者

アマゾン ウェブ サービス ジャパン合同会社
技術統括本部 ソリューションアーキテクト
林⽥ 千瑛

セッション概要

データによる意思決定が求められる機会が多くなり、データ活用がすすんでいます。さまざまな人がさまざまなデータへのアクセスが求められるようになるにつれ、複雑なデータレイク運用を統制するためのデータガバナンスが求められています。本セッションでは、まずはじめにデータドリブンの意思決定を推進するためのAWSのモダンデータ戦略について紹介します。また、企業のデータレイクに求められるデータガバナンスと、AWSでの実現方法と事例についてご紹介します。

関連キーワード

  • AWS Glue
  • AWS Lake Formation
  • AWS Data Exchange

アジェンダ

  • データ活用の課題とAWSのモダンデータ戦略
  • AWS で実現するデータガバナンス
  • 一歩進んだ大規模データ活用基盤の構築

セッションレポート

データ活用の課題とAWSのモダンデータ戦略

データ活用のためのチャレンジ

  • あらゆるデータに接続
  • 誰でも簡単に分析
  • 個人利用から大規模データまでのスケール
  • リアルタイムデータの利用
  • コスト最適化
  • セキュリティ、データ管理の一元化

→ 画一的な分析環境によるデータ活用の限界がある

AWSのモダンデータ戦略

  • モダナイズ
    • モダンなアプリケーションによるオペレーションコスト削減
    • ローコード/ノーコードによるスキルギャップ削減
  • 統一化
    • データアクセスやセキュリティを統一してリスク削減
    • データ管理を一元化してデータ活用を促進
  • イノベーション
    • 機械学習による新しいビジネスプロセスの開発

AWSで実現するデータガバナンス

AWS Glue+AWS Lake Formationを用いて、データガバナンスを実現

  • メタデータ
    • さまざまなクエリエンジンから同じデータを利用することができる
    • 利用者が必要なデータを数分で発見
  • バージョニング
    • スキーマバージョン管理により変更内容の比較が可能
  • モニタリング
    • データカタログや定期ジョブのステータスをAmazon EventBridge経由で監視
  • データ品質
    • AWS Glue DataBrewのプロファイルジョブを用いて、テーブルデータのプロファイリングが可能
  • セキュリティ
    • DBスタイルのGRANT/REVOKEによるアクセスコントロール
    • アクセス履歴をニアリアルタイムで閲覧
  • データプライバシー
    • 機密情報をデータレイク取り込み時に検出・マスキングして安全にデータ活用
      • ノーコードETL機能でPII(Personally Identifiable Information)のマスキングなどが可能
  • ワークフロー
    • AWS Glueワークフローを利用してETLジョブのワークフローを一元管理
  • データ最適化
    • ACIDトランザクション
    • ストレージ最適化
    • タイムトラベル

一歩進んだ大規模データ活用基盤の構築

Data Mesh

それぞれのデータを1つのプロダクトとして扱い、統合的なデータガバナンス環境におけるデータ共有を行う

メリット

  • アカウントを分けることで組織ごとのコスト管理が可能
  • 組織ごとに自由にクエリエンジンを選択
  • データ転送を行わずにパイプライン簡素化

AWS Lake Formationで実現するData Mesh環境

  • (データをコピーすることなく)プロデューサアカウントのデータをコンシューマアカウントに共有
  • クロスアカウントでのDB/テーブル/列/行レベルでのアクセスコントロールが可能
  • 各組織がアカウント内でデータプロダクト(DB、テーブル等のLake Formationオブジェクト)を必要な組織に共有
  • メッシュのように複数アカウント間で相互にデータ共有
  • データプロダクトへのアクセス履歴をプロデューサアカウントで監査・モニタリング可能

まとめ

  • モダンデータ戦略
    • 目的別サービスの協調によりデータ活用を促進
  • 下記のサービスを利用して、データ活用とシステムとしての頑健性を両立
    • AWS Glue
    • AWS Lake Formation
  • Data Mesh環境を構築することで、よりビジネスインサイトに直結した分析環境を提供

所感

一般的なデータ活用における課題に対しての「AWSサービスを用いた解決策」が端的に説明されていて、データガバナンスについての理解も深まる有意義なセッションでした!

またセッションでは、AWS Data Exchangeを用いたデータ活用例も紹介されていました。

セッション自体も約30分ほどのコンパクトな内容になっているので、是非アーカイブもご視聴いただければと思います。

以上、DA(データアナリティクス)事業本部のナガマサでした。