[UPDATE] AWS Glue Version 5.1がGAになり、Apache Iceberg V3サポートとLake Formationの書き込みアクセス制御が追加されました
クラウド事業本部の石川です。AWS Glue 5.1が一般提供(GA)されました。Apache Spark 3.5.6への更新に加え、待望のApache Iceberg V3サポートやLake Formationの書き込みアクセス制御など、データエンジニアにとって嬉しいアップデートが盛りだくさんです。
アップデート概要
AWS Glue 5.1では、以下の主要なアップデートが含まれています。
- コアエンジンのアップグレード(Apache Spark 3.5.6、Python 3.11、Scala 2.12.18)
- オープンテーブルフォーマットライブラリの更新
- Apache Iceberg V3(format version 3.0)のサポート
- AWS Lake Formationの書き込み操作への細粒度アクセス制御の拡張
- Apache HudiおよびDelta Lakeテーブルへのフルテーブルアクセス制御
コアエンジンのアップグレード
AWS Glue 5.1では、基盤となるエンジンが以下のバージョンにアップグレードされました。
| コンポーネント | バージョン |
|---|---|
| Apache Spark | 3.5.6 |
| Python | 3.11 |
| Scala | 2.12.18 |
Python 3.11は、Python 3.10と比較して10〜60%の高速化が報告されており、Glueジョブのパフォーマンス向上が期待できます。
オープンテーブルフォーマットライブラリの更新
各オープンテーブルフォーマットのライブラリも最新版に更新されました。
| ライブラリ | バージョン |
|---|---|
| Apache Iceberg | 1.10.0 |
| Apache Hudi | 1.0.2 |
| Delta Lake | 3.3.2 |
特にApache Iceberg 1.10.0は、2025年9月にリリースされた比較的新しいバージョンで、Iceberg V3の機能を含んでいます。
Apache Iceberg V3(format version 3.0)のサポート
個人的に最も注目度の高いアップデートが、Apache Iceberg V3のサポートです。以下の新機能が利用可能になりました。
デフォルトカラム値(Default Column Values)
テーブルにカラムを追加する際、既存の行に対してデフォルト値を設定できるようになりました。これにより、スキーマ進化がより柔軟になります。
削除ベクター(Deletion Vectors)
Merge-on-Readテーブルで削除ベクターがサポートされました。従来のPosition Deleteと比較して、よりコンパクトで効率的な削除操作が可能になります。Deletion Vectorsは、削除された行をビットマップで表現するため、ストレージ効率とクエリパフォーマンスの両方が向上します。
マルチ引数トランスフォーム(Multi-argument Transforms)
パーティション変換で複数の引数を受け取れるようになりました。これにより、より複雑なパーティション戦略を実装できます。
行リネージ追跡(Row Lineage Tracking)
データの各行がどのように変更されたかを追跡できるようになりました。データガバナンスや監査要件への対応に役立ちます。
AWSのソリューションアーキテクトの 疋田宗太郎さん(@bering) 一年前に先取りしています。圧巻ですね。
AWS Lake Formationの書き込みアクセス制御
これまでAWS Lake Formation のきめ細かなアクセス制御(行レベル、列レベルなど)はSpark DataFrames および Spark SQL の 読み取り操作 (Read operations) に限定されていましたが、AWS Glue 5.1では書き込み操作(DML: データ操作言語、DDL: データ定義言語)にも拡張されました。
Spark DataFrameおよびSpark SQLの両方で、Lake Formationによるきめ細かな権限管理のもとでデータの書き込みが可能になります。エンタープライズ環境でのデータレイク運用において、セキュリティとガバナンスの強化に大きく貢献するアップデートです。
Apache HudiおよびDelta Lakeへのフルテーブルアクセス制御
Apache SparkでApache HudiおよびDelta Lakeテーブルに対しても、Apache Spark でのフルテーブルアクセス制御が追加されました。Icebergだけでなく、他のオープンテーブルフォーマットでも包括的なセキュリティオプションを利用できるようになります。
最後に
AWS Glue 5.1は、待望のApache Iceberg V3のサポートにより、Deletion Vectorsやデフォルトカラム値など、より高度なデータレイク運用が可能になりました。また、Lake Formationの書き込みアクセス制御の追加は、エンタープライズ環境でのセキュリティ要件を満たす上で重要なアップデートです。
すでにGAのはずですが、執筆時点ではGlue 5.1が選択できないので、残念ながら検証できませんでした。とは言うものの、既存のGlue 4.0やGlue 5.0を利用している方は、新機能の恩恵を受けるためにGlue 5.1へのアップグレードを検討してみてはいかがでしょうか。






