[新機能] Amazon EMR Serverless で Spark ジョブのローカルストレージ管理が不要に!Serverless Storage が GA になりました  #AWSreInvent

[新機能] Amazon EMR Serverless で Spark ジョブのローカルストレージ管理が不要に!Serverless Storage が GA になりました #AWSreInvent

2025.12.03

クラウド事業本部の石川です。Amazon EMR Serverless に待望の新機能「Serverless Storage」が一般提供(GA)されました。Apache Spark ワークロードにおけるローカルストレージのプロビジョニングが不要になり、ディスク容量の制約によるジョブの失敗を防止し、更にデータ処理コストを最大20%削減できるようになりました。

https://aws.amazon.com/jp/about-aws/whats-new/2025/12/amazon-emr-serverless-local-storage-provisioning-apache-spark-workloads/

Serverless Storage とは

EMR Serverless は、Apache Spark や Hive などのビッグデータフレームワークを、インフラストラクチャの管理なしに実行できるサーバーレスオプションです。従来、EMR Serverless を使用する際、Spark ジョブのシャッフルやスピル処理のために、アプリケーションごとにローカルディスクのタイプとサイズを設定する必要がありました。

今回リリースされた Serverless Storage は、この中間データ操作をフルマネージドなサーバーレスストレージにオフロードすることで、キャパシティプランニングの手間を完全に排除します。

Serverless Storage の特長

Serverless Storage の主な特長は以下の通りです。

ゼロコンフィグストレージ

アプリケーションやジョブごとにローカルディスクのタイプやサイズを設定する必要がありません。EMR Serverless がシャッフル、ディスクスピル、ディスクキャッシュなどの中間データ操作を自動的に管理します。

自動スケーリングによるジョブ失敗の防止

ストレージ容量がワークロードの需要に応じて自動的にスケールするため、ディスク容量不足によるジョブ失敗を防止できます。

コスト削減メカニズム

中間データストレージは無料で提供され、コンピュートとメモリリソースに対してのみ課金されます。さらに、ストレージとコンピュートが分離されることで、Spark がアイドル状態のワーカーを即座に解放できるようになり、コンピュートコストも削減されます。

セキュリティ

すべての中間データは転送時および保存時に暗号化され、ジョブレベルでの厳格な分離が保証されます。AWS Lake Formation との統合により、きめ細かいアクセス制御もサポートされています。

制約事項

Serverless Storage を使用する際は、以下の制約事項に注意が必要です。

リリースバージョン

EMR リリース 7.12 以降でのみサポートされています。

中間データ量の制限

ジョブごとに読み書きできる中間データの合計は最大 200 GB までです。この制限を超えるとジョブが失敗します。大規模なシャッフルが発生するジョブでは、この制限を意識した設計が必要です。

ジョブ実行タイムアウト

最大 24 時間までのジョブをサポートします。それ以上の実行時間が設定されている場合、ジョブは失敗します。

Pre-initialized capacity との非互換

Pre-initialized capacity(事前初期化済みキャパシティ)のワーカーは Serverless Storage をサポートしません。Serverless Storage が有効なジョブは新しいワーカーをプロビジョニングし、Pre-initialized capacity は使用されません。

ワークロードタイプの制限

ストリーミングジョブおよびインタラクティブジョブはサポートされていません。バッチジョブのみが対象です。

ワーカー構成の制限

1 または 2 vCPU のワーカーでは Serverless Storage はサポートされません。

リージョン

現時点では、以下のリージョンでのみ利用可能です。

  • US East (N. Virginia)
  • US West (Oregon)
  • Europe (Ireland)

東京リージョン(ap-northeast-1)では現時点で利用できないため、日本のお客様は上記リージョンでの利用を検討するか、東京リージョンでの提供開始を待つ必要があります。

最後に

EMR Serverless の Serverless Storage は、運用負荷軽減とコスト最適化をもたらす機能です。ローカルディスクのキャパシティプランニングから解放され、Spark ジョブの実行に集中できるようになります。

特に、データ量が予測困難なワークロードや、Dynamic Resource Allocation を最大限活用したいケースでは、この機能の恩恵は大きいでしょう。一方で、200 GB の中間データ制限やストリーミング非対応などの制約もあるため、ワークロードの特性に応じて従来のローカルディスクモードとの使い分けを検討してください。

東京リージョンでの提供開始が待ち遠しいですが、グローバルなワークロードや検証目的であれば、今すぐ US East や US West リージョンで試すことができます。

この記事をシェアする

FacebookHatena blogX

関連記事