[UPDATE] Amazon SageMaker HyperPodでElastic Trainingがサポートされました #AWSreInvent

[UPDATE] Amazon SageMaker HyperPodでElastic Trainingがサポートされました #AWSreInvent

2025.12.04

クラウド事業本部の石川です。Amazon SageMaker HyperPodにElastic Training 機能が追加されました。基盤モデルのトレーニングにおけるリソース管理が大幅に効率化されます。

https://aws.amazon.com/jp/about-aws/whats-new/2025/12/elastic-training-amazon-sagemaker-hyperpod/

Elastic trainingとは

Elastic Trainingは、リソースの可用性とワークロードの優先度に基づいて、トレーニングワークロードを自動的にスケーリングする機能です。

主な特徴は以下の通りです。

自動スケールアウト

クラスタ内にアイドル状態のAI アクセラレータがある場合、トレーニングジョブを自動的に拡張してこれらのリソースを活用します。

自動スケールイン

より優先度の高いワークロードがリソースを必要とする場合、トレーニングを完全に停止することなくシームレスに縮小します。

ゼロコード変更(HyperPod recipes利用時)

HyperPod recipesを使用している場合、LlamaやGPT OSSなどの公開モデルに対してコード変更なしでElastic Trainingを有効化できます。

カスタムモデルにも対応

独自のモデルアーキテクチャを使用している場合でも、軽量な設定更新と最小限のコード修正でElastic Training機能を統合できます。分散システムの専門知識がないチームでも導入可能です。

最小リソースでの即時開始

最小限のリソースでトレーニングを開始し、キャパシティが利用可能になるに従って機会的に拡張することが可能です。

Elastic Trainingのメリット

従来のアプローチの問題点

従来の固定リソーストレーニングでは、以下のような問題がありました。

計算リソースの可用性が変化するたびに、分散トレーニングの専門家が手動でトレーニングを停止し、world size、データ並列度、モデル並列度などのパラメータを再計算して再構成する必要がありました。この作業には数時間を要することもあり、その間高価なGPUはアイドル状態のままでした。

Elastic Trainingによる解決

Elastic Trainingは、PyTorchのElasticAgentを拡張したHyperPod elastic agentを中心に構築されています。このエージェントはトレーニングコンテナにインストールされ、各コンテナ上のトレーニングワーカーのライフサイクルを管理し、HyperPod training operatorと通信します。

リソースの変化が発生した場合、HyperPod training operatorが全ランクにわたるヘルスの全体像を維持し、1つのランクで問題が発生した場合は全ランクにストップシグナルをブロードキャストします。これにより、個別のランクが異なるタイミングでタイムアウトにより失敗することを防ぎ、効率的な障害検出と回復を実現しています。

また、従来のワーカー間での探索が不要になり、HyperPod rendezvous backendを通じてランクを直接割り当てることで、初期化のオーバーヘッドが削減されます。

最後に

Amazon SageMaker HyperPodのElastic Trainingは、大規模モデルトレーニングにおけるリソース管理の自動化という点で大きな進歩です。従来、数時間かかっていたリソース再構成作業を自動化し、高価なGPUの無駄遣いを削減できます。特に、複数のチームやワークロードがクラスタを共有する環境では、クラスタ使用率を最大化しながら製品のアイデアが生まれてから、実際に市場に投入されるまでの時間を短縮できる点が魅力的です。

HyperPod recipesを使用している場合はコード変更なしで導入できるため、既存のワークフローへの影響を最小限に抑えつつ、この新機能のメリットを享受できます。

SageMaker HyperPod Elastic Trainingは、Amazon SageMaker HyperPodが現在利用可能なすべてのリージョンで利用できます。

この記事をシェアする

FacebookHatena blogX

関連記事