[新機能] Amazon EMR Serverless で Spark ジョブのローカルストレージ管理が不要に！Serverless Storage が GA になりました #AWSreInvent

AWS re:Invent 2025
2025.12.03
クラウド事業本部の石川です。Amazon EMR Serverless に待望の新機能「Serverless Storage」が一般提供（GA）されました。Apache Spark ワークロードにおけるローカルストレージのプロビジョニングが不要になり、ディスク容量の制約によるジョブの失敗を防止し、更にデータ処理コストを最大20%削減できるようになりました。
https://aws.amazon.com/jp/about-aws/whats-new/2025/12/amazon-emr-serverless-local-storage-provisioning-apache-spark-workloads/
 Serverless Storage とはEMR Serverless は、Apache Spark や Hive などのビッグデータフレームワークを、インフラストラクチャの管理なしに実行できるサーバーレスオプションです。従来、EMR Serverless を使用する際、Spark ジョブのシャッフルやスピル処理のために、アプリケーションごとにローカルディスクのタイプとサイズを設定する必要がありました。
今回リリースされた Serverless Storage は、この中間データ操作をフルマネージドなサーバーレスストレージにオフロードすることで、キャパシティプランニングの手間を完全に排除します。
 Serverless Storage の特長Serverless Storage の主な特長は以下の通りです。
ゼロコンフィグストレージ
アプリケーションやジョブごとにローカルディスクのタイプやサイズを設定する必要がありません。EMR Serverless がシャッフル、ディスクスピル、ディスクキャッシュなどの中間データ操作を自動的に管理します。
自動スケーリングによるジョブ失敗の防止
ストレージ容量がワークロードの需要に応じて自動的にスケールするため、ディスク容量不足によるジョブ失敗を防止できます。
コスト削減メカニズム
中間データストレージは無料で提供され、コンピュートとメモリリソースに対してのみ課金されます。さらに、ストレージとコンピュートが分離されることで、Spark がアイドル状態のワーカーを即座に解放できるようになり、コンピュートコストも削減されます。
セキュリティ
すべての中間データは転送時および保存時に暗号化され、ジョブレベルでの厳格な分離が保証されます。AWS Lake Formation との統合により、きめ細かいアクセス制御もサポートされています。
 制約事項Serverless Storage を使用する際は、以下の制約事項に注意が必要です。
リリースバージョン
EMR リリース 7.12 以降でのみサポートされています。
中間データ量の制限
ジョブごとに読み書きできる中間データの合計は最大 200 GB までです。この制限を超えるとジョブが失敗します。大規模なシャッフルが発生するジョブでは、この制限を意識した設計が必要です。
ジョブ実行タイムアウト
最大 24 時間までのジョブをサポートします。それ以上の実行時間が設定されている場合、ジョブは失敗します。
Pre-initialized capacity との非互換
Pre-initialized capacity（事前初期化済みキャパシティ）のワーカーは Serverless Storage をサポートしません。Serverless Storage が有効なジョブは新しいワーカーをプロビジョニングし、Pre-initialized capacity は使用されません。
ワークロードタイプの制限
ストリーミングジョブおよびインタラクティブジョブはサポートされていません。バッチジョブのみが対象です。
ワーカー構成の制限
1 または 2 vCPU のワーカーでは Serverless Storage はサポートされません。
リージョン
現時点では、以下のリージョンでのみ利用可能です。
US East (N. Virginia)
US West (Oregon)
Europe (Ireland)
東京リージョン（ap-northeast-1）では現時点で利用できないため、日本のお客様は上記リージョンでの利用を検討するか、東京リージョンでの提供開始を待つ必要があります。
 最後にEMR Serverless の Serverless Storage は、運用負荷軽減とコスト最適化をもたらす機能です。ローカルディスクのキャパシティプランニングから解放され、Spark ジョブの実行に集中できるようになります。
特に、データ量が予測困難なワークロードや、Dynamic Resource Allocation を最大限活用したいケースでは、この機能の恩恵は大きいでしょう。一方で、200 GB の中間データ制限やストリーミング非対応などの制約もあるため、ワークロードの特性に応じて従来のローカルディスクモードとの使い分けを検討してください。
東京リージョンでの提供開始が待ち遠しいですが、グローバルなワークロードや検証目的であれば、今すぐ US East や US West リージョンで試すことができます。
[新機能] Amazon EMR Serverless で Spark ジョブのローカルストレージ管理が不要に！Serverless Storage が GA になりました #AWSreInvent

Serverless Storage とは

Serverless Storage の特長

制約事項

最後に

関連記事

AWSで探す

注目のテーマ

プロダクトやサービスで探す

特集やシリーズから探す

EVENTS