![[新機能] Amazon EMR Serverless で Spark ジョブのローカルストレージ管理が不要に!Serverless Storage が GA になりました #AWSreInvent](https://images.ctfassets.net/ct0aopd36mqt/33a7q65plkoztFWVfWxPWl/a718447bea0d93a2d461000926d65428/reinvent2025_devio_update_w1200h630.png?w=3840&fm=webp)
[新機能] Amazon EMR Serverless で Spark ジョブのローカルストレージ管理が不要に!Serverless Storage が GA になりました #AWSreInvent
クラウド事業本部の石川です。Amazon EMR Serverless に待望の新機能「Serverless Storage」が一般提供(GA)されました。Apache Spark ワークロードにおけるローカルストレージのプロビジョニングが不要になり、ディスク容量の制約によるジョブの失敗を防止し、更にデータ処理コストを最大20%削減できるようになりました。
Serverless Storage とは
EMR Serverless は、Apache Spark や Hive などのビッグデータフレームワークを、インフラストラクチャの管理なしに実行できるサーバーレスオプションです。従来、EMR Serverless を使用する際、Spark ジョブのシャッフルやスピル処理のために、アプリケーションごとにローカルディスクのタイプとサイズを設定する必要がありました。
今回リリースされた Serverless Storage は、この中間データ操作をフルマネージドなサーバーレスストレージにオフロードすることで、キャパシティプランニングの手間を完全に排除します。
Serverless Storage の特長
Serverless Storage の主な特長は以下の通りです。
ゼロコンフィグストレージ
アプリケーションやジョブごとにローカルディスクのタイプやサイズを設定する必要がありません。EMR Serverless がシャッフル、ディスクスピル、ディスクキャッシュなどの中間データ操作を自動的に管理します。
自動スケーリングによるジョブ失敗の防止
ストレージ容量がワークロードの需要に応じて自動的にスケールするため、ディスク容量不足によるジョブ失敗を防止できます。
コスト削減メカニズム
中間データストレージは無料で提供され、コンピュートとメモリリソースに対してのみ課金されます。さらに、ストレージとコンピュートが分離されることで、Spark がアイドル状態のワーカーを即座に解放できるようになり、コンピュートコストも削減されます。
セキュリティ
すべての中間データは転送時および保存時に暗号化され、ジョブレベルでの厳格な分離が保証されます。AWS Lake Formation との統合により、きめ細かいアクセス制御もサポートされています。
制約事項
Serverless Storage を使用する際は、以下の制約事項に注意が必要です。
リリースバージョン
EMR リリース 7.12 以降でのみサポートされています。
中間データ量の制限
ジョブごとに読み書きできる中間データの合計は最大 200 GB までです。この制限を超えるとジョブが失敗します。大規模なシャッフルが発生するジョブでは、この制限を意識した設計が必要です。
ジョブ実行タイムアウト
最大 24 時間までのジョブをサポートします。それ以上の実行時間が設定されている場合、ジョブは失敗します。
Pre-initialized capacity との非互換
Pre-initialized capacity(事前初期化済みキャパシティ)のワーカーは Serverless Storage をサポートしません。Serverless Storage が有効なジョブは新しいワーカーをプロビジョニングし、Pre-initialized capacity は使用されません。
ワークロードタイプの制限
ストリーミングジョブおよびインタラクティブジョブはサポートされていません。バッチジョブのみが対象です。
ワーカー構成の制限
1 または 2 vCPU のワーカーでは Serverless Storage はサポートされません。
リージョン
現時点では、以下のリージョンでのみ利用可能です。
- US East (N. Virginia)
- US West (Oregon)
- Europe (Ireland)
東京リージョン(ap-northeast-1)では現時点で利用できないため、日本のお客様は上記リージョンでの利用を検討するか、東京リージョンでの提供開始を待つ必要があります。
最後に
EMR Serverless の Serverless Storage は、運用負荷軽減とコスト最適化をもたらす機能です。ローカルディスクのキャパシティプランニングから解放され、Spark ジョブの実行に集中できるようになります。
特に、データ量が予測困難なワークロードや、Dynamic Resource Allocation を最大限活用したいケースでは、この機能の恩恵は大きいでしょう。一方で、200 GB の中間データ制限やストリーミング非対応などの制約もあるため、ワークロードの特性に応じて従来のローカルディスクモードとの使い分けを検討してください。
東京リージョンでの提供開始が待ち遠しいですが、グローバルなワークロードや検証目的であれば、今すぐ US East や US West リージョンで試すことができます。









