[レポート] AWSでスケーラブルかつセキュアなデータレイクを構築するためのベストプラクティス – Subsurface LIVE Summer 2021

Subsurface LIVE Summer 2021

2021.08.10

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

米国時間2021年07月21日〜22日の計2日間、オンラインで開催された「Subsurface LIVE Summer 2021」では、主催となるDremio社のサービスやクラウドデータレイクに関する各種サービスやプロダクトのセッションが展開されていました。

Subsurface LIVE Summer 2021

当エントリでは、その中から「Best Practices for Building a Scalable and Secure Data Lake on AWS」(AWSでスケーラブルかつセキュアなデータレイクを構築するためのベストプラクティス)というセッションについてレポートします。

セッション概要

セッション概要は以下の通り。

Distributed Transactions on the Data Lake with Project Nessie - Subsurface

＜セッションタイトル＞
Best Practices for Building a Scalable and Secure Data Lake on AWS
(AWSでスケーラブルかつセキュアなデータレイクを構築するためのベストプラクティス)

＜登壇者＞
Roy Hasson - Sr. Product Manager, Data & Analytics @ AWS

＜発表内容＞
In this session, Roy will share architectural patterns, approaches and best practices for building scalable data lakes on AWS. You will learn how to first, build a data lake and second, extend it to meet your company needs using the producer-consumer and data mesh architectural patterns. You will learn how AWS Lake Formation makes it simple to deploy these architectures by allowing you to securely share data between teams using their choice of tools, including Dremio, Amazon Redshift and Amazon Athena.

(このセッションでは、ロイがAWS上でスケーラブルなデータレイクを構築するためのアーキテクチャパターン、アプローチ、ベストプラクティスを紹介します。まずデータレイクを構築し、次にProducer-ConsumerとData Meshのアーキテクチャパターンを使って企業のニーズに合わせて拡張する方法を学びます。また、AWS Lake Formationにより、Dremio、Amazon Redshift、Amazon Athenaなどのツールを使ってチーム間でデータを安全に共有することで、これらのアーキテクチャを簡単に展開できることを学びます。)

セッションレポート

ここからはセッションレポートとなります。それぞれのトピックに関して要点をまとめる形で紹介。

「データレイク」と「レイクハウスアプローチ」

データレイクとは何か？

データレイクとは、すべての構造化データおよび非構造化データを、そのままの形で、また分析の準備をした状態で保存するための、一元化された安全なレポジトリを指す
データレイクを利用することで、データのサイロ化を解消し、様々なタイプの分析やMLを組み合わせて、洞察力を高め、より良いビジネス判断を導くことができる

AWSの提唱する「レイクハウスアプローチ」

スケーラブルなデータレイク
目的に応じたデータサービス
自動化されたデータ移動
セントラルガバナンス
高いパフォーマンスとコスト効率

詳細はAWSのドキュメントとしてもまとまっている。下記参照：

レイクハウスアプローチを利用するメリット

S3ベースのデータレイクとすることで既存投資の活用が期待出来る
共通で広く理解されている
分離・分散・拡張が可能
ユビキタスでアクセス可能
安全性と管理性

レイクハウスをイメージしたアーキテクチャ(で使用するAWSサービス群)

セキュリティとガバナンス：
- AWS Lake Formation（安全なデータレイクを数日で構築）| AWS
データプリパレーション：
- AWS Glue（分析用データ抽出、変換、ロード (ETL) ）| AWS
データレイクストレージ：
- Amazon S3（拡張性と耐久性を兼ね揃えたクラウドストレージ）｜AWS
データカタログ：
- AWS Glue Data Catalog

AWS Glue Data Catalog

データレイクのためのメタデータストア
卓越した耐久性、可用性、拡張性
Kafkaスキーマレジストリ
サーバーレスで費用対効果が高い
統合ツールの最も幅広いポートフォリオ
メタデータを取り込む方法が豊富
最高のセキュリティ、コンプライアンス、監査機能
HiveのメタストアAPIに対応

AWS Lake Formation

セキュアなデータレイクを数日で構築出来るサービス

データレイクの迅速な構築
- データの移動、保存、更新、カタログ化を高速化データを自動的に整理、最適化
セキュリティ管理の簡素化
- セキュリティ、ガバナンス、監査のポリシーを一元的に定義、実施
データの発見と共有が容易
- すべてのデータ資産をカタログ化し、消費者間でデータセットを簡単に共有できる

AWS Lake Formation Governed Tables(PREVIEW)

データの更新(UPDATE DATA)
- ACIDトランザクション対応
- タスク間で一貫
- INSERT/UPDATE/DELETE
- バッチ処理とリアルタイム処理を統合
最適化を加速(OPTIMIZATION ACCELERATION)
- ストレージの最適化
- 小さなファイルを自動圧縮
- プッシュダウンフィルタ
- データスキャン量の削減
タイムトラベル機能
- データのバージョン
- データ履歴
- 検証結果を再現
- 変更されたデータの監査

Governed Tables/トランザクション対応(PREVIEW)

テーブルベースのtxn API: マニフェストからファイルを追加または削除
行ベースのtxn API: INSERT/UPDATE/DELETEに対応、行デルタファイルの作成

Governed Tables: ストレージオプティマイザ(PREVIEW)

自動コンパクション(Automatic Compaction)：Governed Tablesの基礎データの変更を継続的に監視

Lake Formationを活用することで、データ共有が簡単に

データベース全体の共有
複数テーブルの共有
行列の共有

レイクハウス方式によるデータメッシュへの進化

共通の技術スタック
拡張性、耐久性、可用性
セキュリティとコンプライアンス
管理が容易で標準的な運用が可能
スキルセットの共通化／迅速な立ち上げ
データウェアハウス
コストパフォーマンス

参考：

統合型データガバナンス

ガバナンスされたデータメッシュの「中核」となる共通のセキュリティ機能／統合されたメタデータ検索
プロデューサとコンシューマに共通のアイデンティティ・プロバイダ／きめ細やかなエンタイトルメント＆TBAC
サービス統合を簡素化するクレデンシャルベンディング／中央監査とコンプライアンス

まとめ

データレイクは、データサイロを破壊し、データ量の要求に応じて拡張することができる
レイクハウスのアプローチは、共通の技術スタックを提供し、データプラットフォームの展開を簡素化する
AWS Lake Formationは、データ製品の構築（カタログ、セキュリティ、アクセス、共有）を簡素化する
AWSネイティブサービスとパートナーソリューションにより、セルフサービスのアナリティクスとMLを実現

まとめ

という訳で、クラウドデータレイクイベント『Subsurface LIVE Summer 2021』のセッション「Best Practices for Building a Scalable and Secure Data Lake on AWS」(AWSでスケーラブルかつセキュアなデータレイクを構築するためのベストプラクティス)のレポートでした。

AWSの提唱する「レイクハウスアーキテクチャ」をがっつりAWSサービス群で作り上げるとどういう感じでどういうメリットがあるか、という内容でした。こういった部分の根幹を為すAWS Lake Formationの紹介が主となるものでしたが、プレビュー機能の特徴は非常に興味深いものばかりですね。早く正式リリースして頂きたいものです。