![[UPDATE] Amazon SageMaker HyperPod が Checkpointless Trainingをサポートしました](https://devio2024-media.developers.io/image/upload/f_auto,q_auto,w_3840/v1764870197/user-gen-eyecatch/uundbthkiauchbirqyzr.png)
[UPDATE] Amazon SageMaker HyperPod が Checkpointless Trainingをサポートしました
クラウド事業本部の石川です。AWS re:Invent 2025 で Amazon SageMaker HyperPod の新機能 Checkpointless Training のサポートが発表されました。障害からの復旧時にチェックポイントへの依存を軽減する革新的なトレーニング機能です。
Checkpointless Trainingとは
大規模な基盤モデルのトレーニングでは、数千もの AI アクセラレータを使用して数週間から数ヶ月にわたる分散トレーニングを行います。この規模になると、ハードウェア障害やソフトウェア障害は避けられない現実です。
従来のチェックポイントベースのリカバリでは、障害発生時にクラスター全体を停止し、問題を診断し、保存されたチェックポイントから再開する必要がありました。このプロセスには最大1時間以上かかることもあり、その間、高価な GPU や Trainium チップがアイドル状態のまま放置されてしまいます。
今回発表されたCheckpointless Trainingは、この課題を根本的に解決する新しいアプローチです。
Checkpointless Trainingのメリット
Checkpointless Trainingは、障害からの復旧時にチェックポイントへの依存を軽減するトレーニング機能です。主な特徴は以下のとおりです。
ピアツーピア状態復旧
分散クラスター全体でモデルのトレーニング状態を継続的に保持し、障害が発生したノードを自動的にスワップアウトします。正常なアクセラレータ間でピアツーピアの状態転送を行うことで、チェックポイントからの復元なしに数分でトレーニングを再開できます。
95% 以上のトレーニンググッドプット
数千の AI アクセラレータを持つ大規模クラスターでも、95% 以上のトレーニンググッドプットを実現します。AWS の内部調査では、16 GPU から 2,000 GPU 以上のクラスターサイズにおいて、従来のチェックポイントベースリカバリと比較してダウンタイムを80%以上削減できたとのことです。
ゼロ手動介入
障害の自動検出から復旧まで、手動介入は一切不要です。
4つのコアコンポーネント
本機能は以下の4つのコンポーネントで構成されており、段階的に導入できます。
- 集合通信初期化の最適化(Collective Communications Initialization Optimizations): プロセス間通信の初期化を高速化
- メモリマップドデータローディング(Memory-mapped Data Loading): キャッシングを可能にするデータローダー
- インプロセスリカバリ(In-process Recovery): プロセス内での障害回復機能
- Checkpointless ピアツーピア状態レプリケーション(Checkpointless Peer-to-peer State Replication): 正常なノード間での状態転送
これらのコンポーネントは HyperPod トレーニングオペレーターを通じてオーケストレーションされます。
ユースケース
大規模基盤モデルのプリトレーニング
数千の GPU を使用して数週間にわたる基盤モデルのプリトレーニングでは、統計的に何度かの障害発生が予想されます。Checkpointless Trainingにより、各障害からの復旧時間を数分に短縮し、プロジェクト全体のタイムラインから数日を短縮できます。
24時間365日の連続トレーニング環境
企業が AI 研究開発のために専用クラスターを運用する場合、夜間や週末の無人運用時に障害が発生しても、自動復旧により翌朝の業務開始時にはトレーニングが継続している状態を維持できます。
マルチテナントクラスター環境
複数のチームが共有クラスターを利用する環境では、一部のノードの障害が他のジョブに波及するリスクがあります。Checkpointless Trainingにより、障害の影響範囲を最小化できます。
Llama や GPT-OSS などのオープンモデルのファインチューニング
HyperPod レシピを使用することで、Llama や GPT-OSS などの人気のある公開モデルに対して、コード変更なしでCheckpointless Trainingを有効化できます。これにより、分散トレーニングの専門知識がないチームでも、大規模なファインチューニングを安心して実行できます。
比較・使い分け
Checkpointless Training vs 従来のチェックポイントベースリカバリ
| 観点 | Checkpointless Training | 従来のチェックポイントベースリカバリ |
|---|---|---|
| 復旧時間 | 数分 | 最大1時間程度 |
| 手動介入 | 不要 | 問題診断等が必要な場合あり |
| ストレージ依存 | 障害復旧時の依存を軽減 | チェックポイントファイルに依存 |
| 導入コスト | 追加コストなし | - |
| 専門知識 | HyperPod レシピで最小限 | 分散トレーニングの知識が必要 |
同時発表のElastic trainingとの違い
re:Invent 2025 では、Checkpointless Trainingと同時にElastic trainingも発表されました。両機能の目的は異なります。
Checkpointless Training: 障害からの高速復旧に焦点
Elastic training: クラスターリソースの動的スケーリングに焦点。利用可能なアクセラレータに応じてトレーニングジョブが自動的にスケールアップ・ダウンし、クラスター使用率を最大化します。
両機能は補完的であり、組み合わせて使用することで、より効率的なトレーニングインフラストラクチャを実現できます。
HyperPod レシピ vs カスタム実装
HyperPod レシピの利用(推奨): Llama、GPT-OSS などの対応モデルでは、コード変更なしでCheckpointless Trainingを有効化できます。分散トレーニングのベストプラクティスが組み込まれているため、迅速に導入できます。
カスタム実装: 独自のモデルアーキテクチャの場合、PyTorch ベースのワークフローに最小限の変更を加えることでCheckpointless Trainingコンポーネントを統合できます。
運用上の考慮事項
Checkpointless Trainingは障害復旧時のチェックポイント依存を軽減しますが、長期保存やバージョン管理のためのチェックポイント保存自体は引き続き推奨されます。定期的なチェックポイント保存と組み合わせることで、障害復旧の高速化と長期的な状態管理の両方を実現できます。
最後に
Amazon SageMaker HyperPod のCheckpointless Trainingは、大規模な基盤モデルトレーニングにおける障害復旧のパラダイムを根本的に変革する機能です。
数時間かかっていた復旧時間を数分に短縮し、95% 以上のトレーニンググッドプットを実現することで、AI 開発チームはインフラストラクチャ管理から解放され、モデルの品質向上に集中できるようになります。
Amazon Nova モデルのトレーニングで実証された本技術は、追加コストなしで利用でき、HyperPod レシピを使用すればコード変更なしで導入可能です。大規模なモデルトレーニングを行っている、または計画している組織にとって、非常に魅力的なアップデートではないでしょうか。
参考資料
合わせて読みたい









