[レポート] 新登場のAmazon SageMaker Lakehouseで分析とAIを加速する #AWSreInvent #ANT354

[レポート] 新登場のAmazon SageMaker Lakehouseで分析とAIを加速する #AWSreInvent #ANT354

データを統一して利用するためのSageMaker Lakehouseがいよいよ登場しました。
Clock Icon2024.12.08

データ事業本部 インテグレーション部 機械学習チームの鈴木です。

AWS re:Invent 2024の、セッション番号ANT354の『[NEW LAUNCH] Amazon SageMaker Lakehouse: Accelerate analytics & AI』を聴講したのでレポートです。

このセッションはAWS re:Invent 2024で新しく発表された大きなアップデートであるSageMaker Lakehouseを中心に、Amazon SageMaker Unified Studioにも触れつつ紹介したものになります。
SageMaker Lakehouseがどのようにデータソースと連携するかや、Amazon SageMaker Unified Studioでの利用方法についても学べる内容でした。

オンデマンド動画

https://www.youtube.com/watch?v=LkH6ZzzA9dM

セッションはSageMaker Lakehouseのコンセプトの説明と、より詳細な機能およびデモの紹介の2パートに別れておりました。

概要・ポイント

SageMaker Lakehouseは、Amazon S3データレイクとRedshiftデータウェアハウスを統合します。全てのデータはIceberg APIを通じてアクセス可能です。AWS EMR・Glue・Athena、ほかにもサードパーティのアプリケーションなどのIceberg対応エンジンであれば、どのエンジンでもアクセスできるそうです。

SageMaker Lakehouseによる統合

行レベル・列レベルの権限など、きめ細かい権限制御も備わっています。

Zero-ETL・フェデレーテッドクエリ機能も備えることでより様々なシステムへのシームレスなアクセスも意識されています。

Zero-ETL1

Zero-ETL2

SageMaker LakehouseはSageMaker Unified Studioから見えるのでその一部なのかなというイメージを持っていましたが、肝としてはApache Iceberg APIを備えたカタログ機能のようでした。
SageMaker Unified StudioはこのAPIを通してカタログの中身を取得しているということですね。

カタログ機能

デモではLakehoseを使ってRedshiftクラスター間のデータをクエリする例と、SageMaker Unified StudioからクエリおよびノートブックでのSparkによるLakehouseからのデータ取得の例を見ることができました。特にUnified StudioからLakehouseのデータを見られるようにする手順が映っていたので、試してみたい方はデモ部分を見ていただくとよいかなと思います。

Apache Iceberg APIを使ったクエリ

ノートブックのイメージ

なお、Lakehoseについては、以下のガイドにも説明がありました。

https://docs.aws.amazon.com/sagemaker-unified-studio/latest/userguide/lakehouse.html

デモではLakeFormationのCatalog機能にRedshiftを登録する操作も出てきていますが、このCatalogについては以下のガイドを参考にされるとよさそうでした。

https://docs.aws.amazon.com/lake-formation/latest/dg/managing-namespaces-datacatalog.html

SageMaker Lakehouseに関するアナウンス内容・検証はDevelopersIOでも記事にまとめられております。

最後に

AWS re:Invent 2024の、セッション番号ANT354のレポートでした。

データレイクとデータウェアハウスを相互に利用できるとお互いのメリットが活かせて良いねという話は以前からありましたが、セッション内でも話されているように設計によって得意不得意が出たりデータ分析基盤のユーザーから見ると結局サイロ化してしまっているというような課題があったと思います。LakehouseとSageMaker Unified Studioの登場により、いよいよこの仕切りが取り払われ非常に簡単にサービスを横断してデータの利用ができるようになるというのがこの機能のミソかなと思いました。

ぜひセッションをみてこの新しい機能を学んでみましょう!

Share this article

facebook logohatena logotwitter logo

© Classmethod, Inc. All rights reserved.