[レポート] データレイクとAWS Lake Formationを使ったデータ統合 #ANT218 #reinvent

2019.12.09

DA事業本部の川崎です。

本記事はAWS re:Invent 2019のセッションレポートとなります。

なお、本セッションは、Mirage会場でのセッションが「オーバフロー」として、それぞれ別会場の3か所のContent Hubで同時中継されていました。 私は Aria の Content Hub の White Theater で聴講しました。

AriaのContent Hubの様子

AriaのContent Hubには6つのTheaterが用意されていました。

概要

Want to build and secure a data lake without all the hassle? Learn how AWS Lake Formation and AWS Glue consolidate and simplify the steps of ingesting, encrypting, cataloging, transforming, and provisioning data. Understand how to make data readily accessible to different analytics services and users, while enforcing granular access control policies and audit logging. Hear about how AWS customers have implemented Lake Formation and AWS Glue for their businesses. Hear how NU SKIN has recently completed an all-in migration to AWS and leveraged AWS Lake Formation to manage their data lake.

すべての手間をかけずにデータレイクを構築して保護したいですか? AWS Lake FormationとAWS Glueがデータの取り込み、暗号化、カタログ化、変換、プロビジョニングの手順を統合および簡素化する方法を学びます。 詳細なアクセス制御ポリシーと監査ログを実施しながら、さまざまな分析サービスとユーザーがデータに簡単にアクセスできるようにする方法を理解します。 AWSのお客様がどのようにLake FormationとAWS Glueをビジネスに実装しているかをご覧ください。 NU SKINが最近AWSへのオールイン移行を完了し、AWS Lake Formationを活用してデータレイクを管理した方法をご覧ください。

スピーカー

  • Mehul Shah - GM, AWS Glue and Lake Formation, Amazon Web Services
  • Joe Sueper - VP Global Infrastructure & Operations, Nu Skin

アジェンダ

  • アジェンダ
    • Revolution(革命)をドライブするトレンド
    • データレイクとは何か?
    • データレイクを構築する上での困難は何か?
    • AWS Lake Formationは、データレイクを簡単に。デモ!

アジェンダ:Revolution(革命)をドライブするトレンド

過去において、意思決定はエンタープライズデータウェアハウスを中心に展開

  • OLTP、 LOB、 ERP、 CRM

  • エンタープライズデータウェアハウス

  • ビジネス・インテリジェンス

データが適合しなくなった

  • 人々が考えるより多くのデータがある
  • データはより多様
  • データは5年ごとに10倍に成長
  • データプラットフォームの寿命は15年
    • 1000倍以上にスケールする必要がある

より広いワークロード

  • 様々な方法でデータを分析したい人が、データへのアクセス機会を増加させています

より多くの規制圧力

  • どのようにしてデータアクセスを民主化し、
  • 規制およびガバナンス要件を順守するか?

ゲームチェンジャー:クラウド上のデータレイク

  • 多くのスケーラブルな分析エンジン
    • オンデマンドで利用可能
    • 従量課金
  • Amazon S3
    • ユビキタスストレージ
    • データセットを一元化できる
  • 単独の「統制の所在」(locus of control)が欲しい

アジェンダ:データレイクとは何か?

データレイク:新しい情報ハブ

一元化された安全なリポジトリにより、あらゆる規模の構造化データ、および非構造化データを統治、発見、共有、分析する

顧客の声

  • IATA

AWS Lake Formationは IATAのAWSベースのデータレイクへの きめ細かいユーザーとサービスへのアクセスを提供する「ワンストップ・ショップ」です。 AWS Lake Formationにより、 IAMのアクセスポリシーを簡素化し、 同様に、権限とパーミッションの管理と監査を提供してくれます。

  • Onefootball

Lake Formationのブループリントは、 一元化されたデータレイクへのデータ投入の簡素化 による保守性の向上をもたらし、 複雑さを排除してくれました。 不要なETLワークロードを省略できました。

  • curvo

臨床向け、医療向けの製品の価格データのベンチマークに対する透明性をもたらすことによる、 患者のアウトカム向上のためには、データの正規化が重要です。 MLトランスフォームを使用して、それまで1週間かかっていたデータセットの処理を、 4時間まで短縮し、精度についても100%近くまで改善しました。

アジェンダ:データレイクを構築する上での困難は何か?

クリーンで安全なデータレイクの構築には、数か月もかかることがあります

データレイクを構築する一般的な手順

アジェンダ:AWS Lake Formationは、データレイクを簡単に。デモ!

クリーンで安全なデータレイクを数日で構築することを可能にするフルマネージドサービス

  • データエンジニア
  • データスチュワード
  • データアナリスト

AWS Lake Formationソリューションスタック

  • 発見、共有、統合ツールは、すべてのユーザーが利用可能
  • きめ細かなパーミッションの集中管理は、セキュリティ担当者をエンパワーする
  • 簡素化された取り込みとクリーニングは、データエンジニアが迅速に構築できます
  • グローバルのレプリケーション機能を備えた、費用対効果の高い耐久性のあるストレージ

AWS Lake FormationはAWS Glue上に構築される

AWS Glueはスケーラブルなサーバーレスのコンポーネントを提供します

  • データカタログ
    • Apache Hive Metastoreとの互換性   - AWS分析サービスと統合
  • クローラー   - スキーマを自動的に推測する   - データカタログの作成

  • サーバーレスETL   - インタラクティブ開発   - Apache Spark / Pythonシェルジョブ   - サーバーレス実行

  • 柔軟なワークフロー   - トリガー、クローラー、ジョブの調整   - フロー全体の作成と監視   - 統合アラート

AWS Lake Formationでデータレイクを構築する

機械学習を活用して難しい問題を解決する

ファジー重複除外-動作の仕組み

一元化されたパーミッション

AWS Lake Formationのセキュリティパーミッション

  • 単純な許可および取り消し権限でデータアクセスを制御します。
  • バケットとオブジェクトではなく、DBS、テーブル、および列の権限を指定します。
  • 特定のユーザーに付与された権限を簡単に表示します。
  • すべてのデータアクセスを1か所で監査します。

AWS Lake Formationセキュリティ:モデル

  • IAMと連動
    • 新しい許可
    • 一時的なクレデンシャルの自動発行

AWS Lake Formationセキュリティ:リクエストフロー

  • AWS Lake Formationは、登録された場所へのアクセスを管理
  • データパスに仲介者は不要

データカタログとメタデータの管理

  • すべてのメタデータにわたるテキストベースの検索
  • データ所有者、スチュワードなどの属性をテーブルプロパティとして追加
  • データのセンシティブ・レベル、列の定義などを列のプロパティとして追加

AWS Lake Formationの下位互換性

  • 既存のAWS Glueデータカタログ:メタデータとデータを引き続き使用
  • きめ細かいLake Formationのパーミッションにアップグレード

AWS Lake Formationのリリース状況

以下のリージョンでGA

  • アメリカ
    • モントリオール
    • 北カリフォルニア
    • 北バージニア
    • オハイオ
    • オレゴン
  • EMEA
    • フランクフルト
    • アイルランド
    • ロンドン
  • アジア
    • ムンバイ
    • ソウル
    • シンガポール
    • シドニー
    • 東京

統合されたサービス

  • Amazon Athena
  • Amazon Redshift
  • AWS Glue
  • Amazon EMR (パブリックベータ)

  • 顧客の声を求めています!

事例「NU SKIN」でのLake Formation

NU SKIN TODAY

人々をエンパワーする

NU SKIN:「all-in」(全面的な)AWSへのトランスフォーメーション

  • AWSへの全面的な移行
    • 費用対効果の高いスケーラブル   - イノベーションサイクルの高速化   - 最新の標準ベースのプラットフォーム
  • ベンチマークよりも25%高速に移行

データレイクのユースケース

  • 我々の顧客に機会をもたらすソリューションを担当
  • 顧客とビジネス関係者がデータに基づいた意思決定を行えるようにします
  • 利害関係者は、意思決定に使用するデータに柔軟性があります
  • サイロ化されたデータソースを統合し、完全な可視性と中央アクセスを提供します。
  • 初期のユースケースのいくつか:
    • 予測
    • サプライチェーン
    • 日次売上
    • 市場および製品分析

データレイク/分析アクセス:要件

  • 管理が簡単でシンプルなセキュリティモデル
  • 時間とリソースを節約します
  • エンドユーザーに対して透過的

データレイクの高レベル設計

  • ジャーニーのデータを準備するための個別のゾーン
    • 沼ではなくレイクを構築

  • データレイクの設計方法

以前の計画案

AWS Lake Formationを使用したイージーでシンプルなパーミッション設定

実際のユースケース

AWS Lake Formationに対するNU SKINからのステートメント

AWS Lake Formation 無しには、 S3上のすべてのデータに対するスケーラブルで使いやすいセキュリティレイヤー、という 目標を達成することは不可能でした。 ユーザーのペルソナに基づいた、きめ細かなアクセスコントロールの、セットアップと適用は簡単でした。

まとめ

以上、「データレイクとAWS Lake Formationを使ったデータ統合」のセッションレポートをお送りしました。 AWS Lake Formation は、安全なデータレイクを数日で簡単にセットアップできるサービスです。 データレイクの価値が高まって来たとはいえ、これまでのデータレイクの設定や管理には、複雑で時間のかかる手作業のタスクが数多く必要となっていました。 Lake Formation はこれらのタスクを簡素化してくれます。 既にGAとなっているサービスですので、機会があれば私自身も、Lake Formationでのデータレイク構築を試してみたいと思います。