[新サービス] 安全なデータレイクを簡単に設定できる!AWS Lake Formation が発表されました! #reinvent

2018.11.29

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

ラスベガスから、クラスメソッドの石川です。

ただいま開催されている、AWS re:Inventのキーノート、熱い新サービスが続々と登場してきています。セキュアなデータレイクを数日で構築できるサービス、AWS Lake Formation が発表されました!

AWS Lake Formation とは

数日で安全なデータレイクを簡単に設定できるサービスです。データの格納場所と適用するデータアクセスとセキュリティポリシーを定義するだけで、Lake Formationがデータレイクを迅速に構築を作成します。セキュリティ管理の簡素され、データへのセルフサービスアクセスを簡単かつ安全に行えるようになります。

S3、RDB、NoSQLにある既存のデータストアを特定し、そのデータをデータレイクに移動して、分析用のデータをクロール、カタログ化、準備します。ユーザーが選択した分析サービスを使用して、データへの安全なセルフサービスアクセスを提供します。他のAWSサービスやサードパーティのアプリケーションも、表示されているサービスを通じてデータにアクセスできます。Lake Formationは、オレンジ色のボックス内のすべてのタスクを管理し、青色のボックスに表示されているデータストアとサービスと統合されています。

データレイクを迅速に構築する

Lake Formationを用いて、データの移動、保管、カタログ作成、およびデータの迅速なクリーニングができます。Lake Formationをデータソースで指定だけで、Lake Formationはこれらのソースをクロールし、新しいAmazon S3データレイクにデータを移動します。Lake Formationは、頻繁に使用されるクエリの周りのS3でデータを整理し、効率を高めるために正しいサイズのチャンクに整理します。Lake Formationは、Apache ParquetやORCのようなフォーマットにデータを変換し、より高速な分析を可能にします。さらに、Lake Formationには、データ品質を向上させるために、一致するレコード(同じものを参照する2つのエントリ)を重複排除して検索する組み込みの機械学習機能があります。

セキュリティ管理の簡素化

Lake Formationは、サービスごとにこれらのタスクを実行するのではなく、セキュリティ、ガバナンス、および監査のポリシーを1か所で集中的に定義し、それらのポリシーを分析アプリケーション全体に適用することができます。ポリシーは一貫して実装されているため、セキュリティサービス(AWS IDとアクセス管理とAWS Key Management Service)、ストレージサービス(S3)、およびアナリティクスと機械学習サービス(Redshift、Athena、EMR for Apache Spark)これにより、サービス間でポリシーを設定する労力が軽減され、一貫性のある執行とコンプライアンスが提供されます。

データへのセルフサービスアクセスを簡単かつ安全に行う

Lake Formationは、使用可能なさまざまなデータセットを説明するデータカタログを構築し、各ユーザーグループにアクセスできます。分析するデータセットを見つける手助けをすることにより、ユーザーの生産性が向上します。データのカタログに一貫したセキュリティ施行を提供することにより、Lake Formationは、アナリストやデータ科学者が優先分析サービスを使いやすくします。 Lake FormationはApache Spark、Redshift、Athena、Sagemaker、QuickSightのEMRを、現在単一のデータレイクに格納されているさまざまなデータセットで使用できます。サイロ間でデータを移動することなく、これらのサービスを組み合わせることもできます。

利用可能リージョン

本日より、限定プレビューで利用可能です。

まとめ

テーブルやカラムの定義、セキュアでアクセスコントロール可能なデータレイクの構築は煩雑なものでしたが、データの格納場所と適用するデータアクセスとセキュリティポリシーを定義するだけで、Lake Formationがデータレイクを作成できるようになりました。

詳細はこちら

ANT396 : [NEW LAUNCH!] AWS Lake Formation の紹介 – セキュアなデータレイクを構築する #reinvent