ANT396 : [NEW LAUNCH!] AWS Lake Formation の紹介 – セキュアなデータレイクを構築する #reinvent

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

はじめに

1日目のキーノートで発表された新サービス AWS Lake Formationの初のセッション、ANT396 - Intro to AWS Lake Formation - Build a secure data lake のセッションのレポートとなります。 安全なデータレイクを簡単に設定できる AWS Lake Formation とは何か、どんな素晴らしことができるようになるのかご理解いただけるはずです。

ANT396 - Intro to AWS Lake Formation - Build a secure data lake

セッション概要

Setting up and managing data lakes today involves a lot of complicated and time-consuming tasks. AWS Lake Formation is a new service (coming soon) that will make it easy to set up a secure data lake in days. You will be able to ingest, catalog, cleanse, transform, and secure your data. Explore how AWS Lake Formation will make it easier to combine analytic tools, like Amazon EMR, Redshift, Athena, Sagemaker, and QuickSight, on data in your data lake.

今日のデータレイクの設定と管理には、多くの複雑で時間のかかる作業が必要です。 AWS Lake Formationは、数日でセキュアなデータレイクを簡単に設定できるようになる新しいサービスです。データを取り込み、カタログ化、クリーンアップ、変換、保護することができます。 AWS Lake Formationを使用して、Amazon EMR、Redshift、Athena、Sagemaker、QuickSightなどの分析ツールをデータレイクのデータに簡単に組み合わせる方法を探ります。

スピーカー

なぜデータレイクか?

データレイクは、

  • 構造化データと非構造化データを問わない
  • エクサバイト規模にスケール可能
  • 多様な分析ツールと機械学習ツールを提供する
  • データの移動がなくてもデータを処理できる
  • 低コストのストレージと分析用に設計されている

様々な分析ワークロードや様々なスケールに対して、可能な限り低いコストで実行できます。

AWS Lake Formation

従来のデータレイク構築は、ストレージのセットアップや移動した後、クレンジングや準備したデータをデータカタログに登録します。更にセキュリティやコンプライアンスを設定して、利用者にデータを使えるようにしなければなりません。データのクレンジングや準備は作業全体の80%を占め、データレイクの構築は数カ月を要していました。

そこで、数日でセキュアなデータレイクを構築できるサービス AWS Lake Formation が誕生しました。

  • データの識別、取り込み、クレンジング、変換
  • 複数のサービス全体にセキュリティポリシーの適用
  • 新しい洞察を獲得と管理

既存データの登録、または新たにインポート

  • Amazon S3はデータレイクのためのストレージ層を形成する
  • データを含む既存のS3バケットを登録する
  • データレイクの形成を問い、必要なS3バケットを作成し、データをインポートする
  • データはアカウントに保存されるので、直接的なアクセス権を持っています。 ロックインなし。

簡単にデータレイクにデータをロード

ブループリントを用いることで、一度きりの移行も定期的なデータ連携も素早く導入できます。

Blueprintsによるデータレイク構築

  1. ソーステーブルのスキーマを検出する
  2. 自動的に目的のデータに変換する
  3. パーティション化スキーマに基づいてデータを自動的にパーティション化する
  4. すでに処理されたデータを追跡する
  5. 上記のいずれかをカスタマイズすることができる

Blueprintsは AWS Glue上に作られている

ブループリントはワークフローやAWS Glueをラップして、より簡潔なインタフェースを提供します。

ML Transformでデータを簡単に重複排除する

  • データセットをマージした後、Lake Formationは教師データとテストデータに分ける
  • Lake Formationは重複やファジーマッチなレコードを特定する
  • 品質と性能に満足するまで、追加した候補の例を調整したり提供したりすることができる
  • データ準備の一環としてML変換を本番環境に組み込む

ファジーな重複排除

従来の重複排除の方法は、すべてのデータセットに重複がないか試すことになるのでボリュームの増加に伴い処理時間がNの2乗で増加しますが、Lake Formationの最新のテクノロジー(Intersection Dynamic Blocking / VLDB2008)では並列化可能な方法であるため劇的に速くなります。4億以上の行データと75億以上の候補ペアを3時間未満で処理できます。

Lake Formation のセキュリティ

一度のセキュリティ設定で複数のアクセス可能

利用者はLake Formationにアクセス設定すると、利用者がデータにアクセスするとLake Formationが提供する一時クレデンシャルを用いてアクセスします。RedshiftやAthenaをはじめとする様々なデータアクセスサービス毎のアクセス設定は不要です。

テーブルのセキュリティ設定

  • 簡単な許可設定と権限削除でデータアクセスを制御する
  • バケットやオブジェクトではなくテーブルとカラムにパーミッションを指定する
  • 特定のユーザーに付与されたポリシーを簡単に参照できる
  • すべてのデータアクセスを一箇所で監査できる

ユーザーのセキュリティ設定

  • 1箇所でユーザー、ロール、グループに付与された検索と表示のアクセス許可
  • ユーザーに付与されたアクセス許可を確認する
  • ユーザーのポリシーを簡単に取り消すことができる

テーブル権限とカラムレベル権限

ユーザーごとに参照できるカラムを制限することができます。例えば、PII(個人情報:Personally Identifiable Information)のアクセスをさせないなどに利用できます。

セキュリティデータフローの詳細

利用者がクエリーをサービスに送ってから結果が帰るまでのフローは以下のとおりです。

  1. 利用者はAthenaやRedshiftなどにクエリを実行する
  2. Lake Formationにクエリが送られる
  3. ユーザーの権限に基づき一時クレデンシャルがAthenaやRedshiftなどに返ってくる
  4. AthenaやRedshiftなどは、一時クレデンシャルの権限でGlueデータカタログやS3にアクセスする
  5. 一時クレデンシャルの権限でGlueデータカタログからメタ情報、S3からデータオブジェクトを取得する

※ 利用者は、IAMユーザーやIAMロールに加えて、ADのフェデレーションユーザにも対応しています。

複数のユーザーにまたがって検索と統合

より簡単にメタデータやデータセットを簡単に見つけられるようになります。

  • すべてのメタデータにわたるテキストベースのファセット検索
  • データ所有者、データスチュワード(データ管理者)、その他の表のプロパティなどの属性を追加する
  • データの機密レベル、カラム定義などをカラムプロパティとして追加する

リアルタイムの監査とモニタリング

データアクセスに関するアクティビティをデータの中央認証ポイントであるLake Formationダッシュボードからデータセットに何が起こっているかを把握できます。

  • コンソールで詳細なアラートを参照できる
  • 詳細な分析のために監査ログをダウンロードできる
  • データ取り込みとカタログ通知もAmazon Cloudwatchイベントにパブリッシュされる

データレイクを作成する3つのステップ

ステップ1: ブループリントでデータを投入する

インポートしたいデータソースを定義します。

インポートが成功すると以下のように表示されます。

インポートしたデータをテーブルとして参照できるようになりました。

ステップ2: セキュアにデータを共有するための権限付与

登録したテーブルやそのカラムのアクセス権限をユーザーに対して設定します。

ステップ3: Amazon Athena からデータをクエリする

実際にユーザーでログインして、データをクエリできることを確認します。

料金

追加料金はいただきません。Lake Formation配下で利用しているサービスの利用費のみです。

最後に

1日目のキーノートを聞いたときは、データレイクを自動設定するウィザートのようなものかと思っていましたが、実際には、Lake Formationがユーザーの一時クレデンシャルの払い出しをしたり、メタデータの管理したり、監査やモニタリングまで本格的にセキュリティを考慮しているが驚きでした。新規のお客様のみならず、既存のRedshiftやAthenaの環境に適用することを考えると悩ましいのですが、うまく統合できると、あらゆるAWSのビッグデータソリューションやMLサービスとの連携が容易になりますので、夢が広がります。

限定プレビューで利用可能です。利用したい方は以下のリンクから申請してください。

合わせて読みたい

[新サービス] 安全なデータレイクを簡単に設定できる!AWS Lake Formation が発表されました! #reinvent

AWS Lake Formationを構成する機能群について #reinvent