[アップデート] AWS Glue 新しいワーカータイプ 「Rタイプ」 と既存「Gタイプ」 にG.12X と G.16Xが追加されました!
クラウド事業本部コンサルティング部の石川です。AWS Glueは、データ量の増加や複雑なデータ変換処理への対応ニーズを受けて、AWS Glueがさらにパワーアップしました。最も要求の厳しいデータ統合ワークロード向けに G.12X と G.16X が追加されました。また、メモリ集約型処理や巨大なデータセットを高速・安定して処理するための新しいワーカータイプ「Rタイプ(R.1X~R.8X)」も追加されました。本日は、この新しく登場した2つのワーカータイプについて紹介します。
AWS Glue Gタイプに新たに G.12X と G.16X が追加されました。既存のGシリーズの拡張版で、より多くのCPU・メモリ・ストレージを提供します。
また、新たに AWS Glue Rタイプ(R.1X、R.2X、R.4X、R.8X) が追加されました。Rタイプはメモリ最適化型として最大で従来比2倍のメモリを搭載し、Sparkのシャッフルやキャッシュ、巨大なアグリゲーションのようなメモリ負荷の高い処理に最適です。複雑なETL処理や大規模データ分析ジョブも短時間で安定して実行可能となりました。
以降では、それぞれについて解説します。
AWS Glue Gタイプ G.12X と G.16X
AWS Glueは、現在のデータ環境がより大規模で複雑になる要求に応えるため、AWS Glueは新しいワーカータイプを追加しました。G.12X と G.16X は、最も要求の厳しいデータ統合ワークロード向けのワーカーです。
特長
垂直スケーリングへの対応
G.12X と G.16Xは、コンピューティング、メモリ、ストレージが増強されており、より集中的なデータ統合ジョブを垂直にスケールして実行することを可能にします。水平スケーリング(ワーカーの追加)が多くのデータ処理課題に対処する一方で、特定のワークロードは個々のワーカーの容量を増やす垂直スケーリングから大きなメリットを得ます。
Sparkドライバーおよびエグゼキューターの容量増強
より大きなワーカータイプは、Sparkエグゼキューターだけでなく、ジョブのクエリプランが大きい場合など、Sparkドライバーがより大きな容量を必要とする場合にもメリットをもたらします。
利用可能なAWS Glueバージョン
G.12X と G.16Xワーカーは、AWS Glue 4.0および5.0で利用可能です。
利用方法
設定の変更を行うだけで、G.12X または G.16Xワーカーを利用できます。
料金
既存のGタイプワーカーと同じく、1 DPU時間あたり0.44ドルで課金され、1分単位で秒単位で請求されます。
スペック
AWS Glue G.12X と G.16X の各スペックは以下の通りです。
AWS Glue Worker Type | DPU per Node | vCPU | Memory (GB) | Disk (GB) | Approximate Free Disk Space (GB) | Number of Spark Executors per Node | Number of Cores per Spark Executor |
---|---|---|---|---|---|---|---|
G.12X | 12 | 48 | 192 | 768 | 741 | 1 | 48 |
G.16X | 16 | 64 | 256 | 1024 | 996 | 1 | 64 |
AWS Glue Rタイプ(R.1X、R.2X、R.4X、R.8X)
Rタイプのワーカーは、今日のより大規模で複雑なデータワークロードの要求に応えるために導入されました。
特長
メモリ集約型ワークロード向け設計
Rタイプのワーカーは、特にメモリ集約型ワークロード向けに設計されており、Gタイプワーカーよりもノードあたりのメモリを多く必要とする場合に適しています。
高いvCPU対メモリ比
Gタイプワーカーが1:4のvCPU対メモリ(GB)比で動作するのに対し、Rタイプワーカーは1:8のvCPU対メモリ(GB)比で動作します。これにより、同じvCPU数に対してより多くのメモリが提供されます。
Sparkエグゼキューターとドライバーの容量増強: より大きなワーカータイプは、Sparkエグゼキューターだけでなく、ジョブのクエリプランが大きい場合など、Sparkドライバーがより大きな容量を必要とする場合にもメリットをもたらします。
利用可能なAWS Glueバージョン
RタイプワーカーはAWS Glue 4.0および5.0で利用可能です。
料金
Rタイプワーカーは、1分単位で課金され、1 DPU時間あたり0.52ドルです。
利用方法
設定の変更を行うだけで、G.12X または G.16Xワーカーを利用できます。
スペック
AWS Glue Rタイプワーカーの各スペックは以下の通りです。
AWS Glue Worker Type | DPU per Node | vCPU | Memory (GB) | Disk (GB) | Approximate Free Disk Space (GB) | Number of Spark Executors per Node | Number of Cores per Spark Executor |
---|---|---|---|---|---|---|---|
R.1X | 1 | 4 | 32 | 94 | 44 | 1 | 4 |
R.2X | 2 | 8 | 64 | 128 | 78 | 1 | 8 |
R.4X | 4 | 16 | 128 | 256 | 230 | 1 | 16 |
R.8X | 8 | 32 | 256 | 512 | 485 | 1 | 32 |
AWS Glue GタイプとRタイプの使い分け
使い分けのポイント
使い分けのポイントは、基本的な方針として、GタイプはCPUとメモリの両方を集中的に使うワークロードに、Rタイプは特にメモリを大量に使うワークロードでコスト効率に優れている、と考えると分かりやすいでしょう。
AWS GlueのGタイプとRタイプのワーカーは、それぞれ異なる最適化が施されており、ワークロードの要件に応じて適切なタイプを選択することで、パフォーマンスとコスト効率を最大化できます。
G.12XおよびG.16Xワーカーは、AWS Glueの最も要求の厳しいデータ統合ワークロード向けに設計されています。コンピューティング、メモリ、ストレージの全てが増強されており、より集中的なデータ統合ジョブを垂直にスケールして実行することを可能にします。G.16Xは既存の最大ワーカータイプであるG.8Xの2倍のリソースを提供します。
Rタイプワーカー(R.1X、R.2X、R.4X、R.8X) は、メモリ集約型ワークロードのために設計されており、Gタイプワーカーよりもノードあたり多くのメモリを必要とする場合に特に適しています。Gタイプワーカーでは特にデータスキューのようなメモリ不足により失敗するような、極端にメモリを大量に消費するワークロードにコスト効率よく対処できます。
最適なワーカータイプの選び方
以下のステップで最適なワーカータイプを選択し、ジョブのリソース利用を最適化します。
- まず、一般的なワーカータイプ(G.1XやG.2X) から開始します。
- AWS Glueジョブメトリクス、可観測性メトリクス、およびSpark UIからジョブの実行状況を監視します。
- データ処理ワークロードがワーカー全体に適切に分散されている場合は、G.1XまたはG.2Xで十分なパフォーマンスが得られます。
- しかし、特定のワークロードがワーカーあたりにより多くのリソースを必要とする場合(垂直スケーリングが有効なシナリオ)は、新しいG.12X、G.16X、またはRタイプワーカーの使用を検討します。
- 特に、メモリ集約型の要件があり、ノードあたりのメモリがGタイプでは不十分な場合は、Rタイプワーカーを選択します。
- より多くのコンピューティング、メモリ、ストレージを必要とする最も要求の厳しいジョブや、Sparkドライバーの容量が重要となる場合は、G.12XまたはG.16Xワーカーを検討します。
最後に
Amazon Athenaは、大量のデータや100を超えるパーティションを持つ複雑なワークロードの処理に課題があり、このワークアラウンドとして、AWS Glueが有効な選択肢となります。AWS Glueは、垂直・水平の両方向へのスケーリングが可能で、ワークロードに応じてワーカータイプも柔軟に選択できます。今後は、このようなスケーラブルな環境を活かし、Apache Icebergフォーマットを利用して、さらに大規模で複雑なデータを扱う機会が増えることが期待され、喜ばしい限りです。
AWS Glueの新しいGタイプとRタイプのワーカーは、多様なデータ処理ワークロードに対し、より大規模かつ高負荷なジョブにも柔軟に対応できる選択肢をもたらします。求めるジョブ性能やワークロードの特性に合わせてワーカータイプとその規模を適切に選択・調整することで、効率的かつコストパフォーマンスの高いデータ分析基盤を構築できるでしょう。今後も増大するデータの可能性を最大限引き出すため、AWS Glueの進化したワーカー群をぜひ活用してみてください。
合わせて読みたい