「祝!Iceberg祭開幕!re:Invent 2024データレイク関連アップデート10分総ざらい」という登壇をしました #regrowth_osaka
データ事業本部インテグレーション部機械学習チーム・新納(にいの)です。
2024年12月11日に開催された『AWS re:Invent ふりかえり勉強会「クラスメソッド re:Growth 2024 大阪」』にて「祝!Iceberg祭開幕!re:Invent 2024データレイク関連アップデート10分総ざらい」という登壇をしました。ご参加いただいた皆様、ありがとうございました!懇親会も盛り上がり、とても楽しい時間を過ごすことができました。
本エントリでは資料とお話しした内容を簡単にまとめてお届けします。
登壇資料
スライド
動画
イベント全編はYouTubeで動画をご覧いただけます。
登壇内容の簡単まとめ
re:Invent 2024ではアナリティクス関連サービスについていろいろなアップデートが発表されました。特に注目すべきは「Apache Iceberg」に関する発表が複数あったことです。このオープンソースのテーブルフォーマットは、今後のデータレイク構築において重要な要素になると考えられます。
正確にはre:Invent 2024直前のアップデートではありますが、Data FirehoseからS3のIcebergテーブルへのデータベース変更の継続的なレプリケーション(2024年12月現在プレビュー)が発表されました。これにより、PostgreSQLやMySQLの変更をIcebergテーブルへリアルタイムで複製可能となります。
この新機能により、以下のようなメリットが期待できます:
- データベースの変更をデータレイクへリアルタイムで反映できる
- Apache Icebergテーブルを使用したデータマートで、最新データをすぐに分析できる
- AWS Glueなどで別途データパイプラインを構築する手間が省ける
S3 TablesはIceberg形式のテーブルデータに最適化された、S3の新たなストレージサービスです。実際の使用感については以下のアップデートブログにも記載しております。
S3 Tablesは従来のS3を使ったIcebergテーブルよりもパフォーマンス面で優れており、自動でコンパクションなどの最適化も実施してくれるという利点があります。IoTセンサーといった小さいなファイルが大量に連携されるケースで特に効果を発揮してくれそうです。
S3 Metadataは、S3オブジェクトの作成・削除やメタデータの変更を、S3 Tablesの仕組みを使ってApache Icebergテーブルとして自動的に管理する新機能です(2023年12月現在プレビュー)。
これまでS3オブジェクトのメタデータを検索する場合、AWS CLIのS3コマンドを駆使するなど、なにかと工夫が必要でした。しかし、S3 Metadataを利用することで、SQLを使って様々な条件での検索が可能になります。
具体的には以下のような活用が期待できます:
- オブジェクトの変更履歴の追跡(アクセス時刻、IPアドレス、ファイル変更内容など)
- カスタムメタデータを活用したデータ管理(例:画像データに「靴」などのタグを付けて、機械学習用データセットの管理)
詳しくは以下のアップデートブログをご参照ください。
まとめ
今回のアップデートにより、Apache Icebergを活用したデータレイク構築がより一層シンプルで使いやすくなりました。
さらに、AWS Lake Formationと組み合わせることで、きめ細かなアクセス制御やガバナンス機能を実現できます。これにより、セキュアかつ効率的なデータレイク運用が可能となります。
データウェアハウスから分析用データマートをAmazon S3にオフロードする際も、これらの新機能を組み合わせることで、より柔軟で高性能なデータ分析基盤を構築できるようになりました。今後のデータレイク構築において、Apache Icebergは重要な選択肢の一つとなりそうです。