[アップデート] 最新バージョンGlue 4.0がリリースされました #reinvent
データアナリティクス事業本部インテグレーション部コンサルティングチーム・新納(にいの)です。
日本時間2022/11/29にAWS Glueの最新バージョンとなるGlue 4.0がリリースされました。
本エントリではGlue 4.0のアップデート内容をご紹介します。
Glue 4.0にできること
エンジンのアップデート(Python 3.10、Apache Spark 3.3.0)
Python 3.10、Apache Spark 3.3.0に対応しました。(Glue 3.0ではPython 3.7、Spark 3.1.1)今回のアップデートでAWS Glue と Amazon EMR はAWS上で実行されるよう最適化された、同一のSpark ランタイムを利用します。基本的なオープンソースバージョンよりも2~3倍高速になりました。
Spark 3.3.0では以下のアップデートが含まれます。
- Row-level runtime filtering (SPARK-32268).
- ANSIの強化 (SPARK-38860).
- Error messageの改善 (SPARK-38781).
- Parquet ベクトル化リーダーの複合型をサポート (SPARK-34863).
- Spark SQL の隠しファイル メタデータのサポート (SPARK-37273).
- Python/Pandas UDFのプロファイラを提供 (SPARK-37443).
- 複数のバッチでTrigger.Onceなどのストリーミング クエリを実行するTrigger.AvailableNowを導入 (SPARK-36533).
- より包括的な Datasource V2 プッシュダウン機能 (SPARK-38788).
- log4j 1からlog4j 2にマイグレーション (SPARK-37814).
新しいエンジンプラグイン
ディスク使用量のスケーリング、動的なクエリの最適化をサポートするSparkのCloud Shuffle Serviceプラグインをネイティブサポートしました。
Pandasをサポート
データ分析で使用されるPythonのライブラリであるPandasがサポートされました。
新しいデータ形式
Apache Hudi、Apache Iceberg、Delta Lakeがネイティブにサポートされました。
Glue 4.0を使う
Glue 4.0は現在、GovCloud(US)リージョンと中国リージョン以外のすべてのリージョンで利用可能です。GlueジョブのJob detailsの「Glue version」からGlue 4.0を選択できます。バージョン選択後、Saveボタンで設定保存をお忘れなく。
APIの場合はUpdateJob
でバージョン4.0
を指定してください。
制限事項
- Spark 3.3.0ではPython 2.7/3.6はサポートされません。このバージョンに依存した外部ライブラリを使用している場合、依存ライブラリをPython 3.10対応にアップデートする必要があります。
- AWS Glue ストリーミング ジョブとAWS Glueインタラクティブセッションは現時点(2022/11/28)ではサポートされていません。
- AWS Glue Machine Learningと個人識別情報 (PII) 変換は現時点(2022/11/28)ではサポートされていません。
おわりに
ついにGlue最新バージョンの4.0がリリースされました。いくつか制限事項はあるものの、これまでになかったPandasのサポートなど便利に使えるアップデートが含まれていますのでぜひお試しください。