[アップデート] 最新バージョンGlue 4.0がリリースされました #reinvent

2022.11.29

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

データアナリティクス事業本部インテグレーション部コンサルティングチーム・新納(にいの)です。

日本時間2022/11/29にAWS Glueの最新バージョンとなるGlue 4.0がリリースされました。

本エントリではGlue 4.0のアップデート内容をご紹介します。

Glue 4.0にできること

エンジンのアップデート(Python 3.10、Apache Spark 3.3.0)

Python 3.10、Apache Spark 3.3.0に対応しました。(Glue 3.0ではPython 3.7、Spark 3.1.1)今回のアップデートでAWS Glue と Amazon EMR はAWS上で実行されるよう最適化された、同一のSpark ランタイムを利用します。基本的なオープンソースバージョンよりも2~3倍高速になりました。

Spark 3.3.0では以下のアップデートが含まれます。

  • Row-level runtime filtering (SPARK-32268).
  • ANSIの強化 (SPARK-38860).
  • Error messageの改善 (SPARK-38781).
  • Parquet ベクトル化リーダーの複合型をサポート (SPARK-34863).
  • Spark SQL の隠しファイル メタデータのサポート (SPARK-37273).
  • Python/Pandas UDFのプロファイラを提供 (SPARK-37443).
  • 複数のバッチでTrigger.Onceなどのストリーミング クエリを実行するTrigger.AvailableNowを導入 (SPARK-36533).
  • より包括的な Datasource V2 プッシュダウン機能 (SPARK-38788).
  • log4j 1からlog4j 2にマイグレーション (SPARK-37814).

新しいエンジンプラグイン

ディスク使用量のスケーリング、動的なクエリの最適化をサポートするSparkのCloud Shuffle Serviceプラグインをネイティブサポートしました。

Pandasをサポート

データ分析で使用されるPythonのライブラリであるPandasがサポートされました。

新しいデータ形式

Apache Hudi、Apache Iceberg、Delta Lakeがネイティブにサポートされました。

Glue 4.0を使う

Glue 4.0は現在、GovCloud(US)リージョンと中国リージョン以外のすべてのリージョンで利用可能です。GlueジョブのJob detailsの「Glue version」からGlue 4.0を選択できます。バージョン選択後、Saveボタンで設定保存をお忘れなく。

APIの場合はUpdateJobでバージョン4.0を指定してください。

制限事項

  • Spark 3.3.0ではPython 2.7/3.6はサポートされません。このバージョンに依存した外部ライブラリを使用している場合、依存ライブラリをPython 3.10対応にアップデートする必要があります。
  • AWS Glue ストリーミング ジョブとAWS Glueインタラクティブセッションは現時点(2022/11/28)ではサポートされていません。
  • AWS Glue Machine Learningと個人識別情報 (PII) 変換は現時点(2022/11/28)ではサポートされていません。

おわりに

ついにGlue最新バージョンの4.0がリリースされました。いくつか制限事項はあるものの、これまでになかったPandasのサポートなど便利に使えるアップデートが含まれていますのでぜひお試しください。

参考