AWS ParallelCluster 3.10.0 でスポットインスタンスのコスト削減と安定性を両立する新戦略が追加されました

2024.06.28

AWS ParallelCluster 3.10.0 が 2024 年 6 月 28 日にリリースされました。 このバージョンは、スポットインスタンス起動の最適化、OS サポートの面の変更があります。特にスポットインスタンス向けの新しい配分戦略は、コスト削減と安定性の両立を実現したインパクトのある機能追加です。

なお、3.10.x 系のサポート期間は 2025 年 12 月 27 日までとなっています。

AWS ParallelCluster support policy - AWS ParallelCluster

注目のアップデート

本アップデートの主要な変更点と、個人的に注目しているポイントをピックアップしました。リリースノートだけではアップデート前後の違いを把握しづらいため、可能な範囲で補足説明を加えています。

アップデート詳細はリリースノート、ドキュメントの更新履歴をご確認ください。

主要な変更点

  1. スポットインスタンス用の新たな配分戦略「price-capacity-optimized」の追加
  2. 外部 Slurm データベースへの接続設定の簡略化
  3. Amazon Linux 2023 の新規サポート
  4. CentOS 7 のサポート終了

これらの変更点について、以下で詳細を説明します。

スポットインスタンス用の新たな配分戦略が追加

従来の配分戦略は「スポット価格の安いインスタンスタイプを優先(lowest-price)」するか、「中断確率の低いインスタンスタイプ(capacity-optimized)」を優先するかのどちらかでした。

今回のアップデートで中断確率がもっとも低く、スポット価格がもっとも安いインスタンスタイプをスポットインスタンスプールの中から決定するprice-capacity-optimizedが追加されました。

「中断確率の低いインスタンスタイプ(capacity-optimized)」を利用されていたユーザーには、今回追加されたprice-capacity-optimizedを利用を個人的には推奨します。

AWS ParallelCluster の配分戦略のデフォルト設定は、「スポット価格の安いインスタンスタイプを優先(lowest-price)」です。使用するときは明示的にprice-capacity-optimizedを指定してください。

  SlurmQueues:
    # ------ Compute 1 ------
    - Name: p1
      ComputeResources:
        - Name: m6idmetal
          Instances:
            - InstanceType: m6id.metal
          MinCount: 0
          MaxCount: 30
          DisableSimultaneousMultithreading: true
      ComputeSettings:
        LocalStorage:
          RootVolume:
            Size: 40
            Encrypted: true
            VolumeType: gp3
            Iops: 3000
            Throughput: 125
      CapacityType: SPOT
      AllocationStrategy: price-capacity-optimized

EC2 の Auto Scaling のスポットインスタンスの配分戦略には、2022 年 11 月に追加された戦略でした。約 7 ヶ月遅れて ParallelCluster にも同様の戦略が追加されたことになります。

ドキュメントリンク

既存の Slurm アカウンティング DB への接続が簡略化された

既存の Slurm アカウンティング DB の指定がホスト名と、ポート名指定するだけで良くなりました。

ExternalSlurmdbd:
  Host: string
  Port: integer

昔はヘッドノードに後付で Slurm アカウンティング DB へ接続するのはやや設定が煩雑でしたがずいぶんと簡略化されたものです。

ドキュメントリンク

Amazon Linux 2023 をサポート

Amazon Linux 2023 が AWS ParallelCluster でもサポートされました。Amazon Linux 2 のサポート期限は 2025 年 6 月 30 日までです。

ドキュメントリンク

Cent OS 7 を非サポート

Cent OS 7 の利用が AWS ParallelCluster 3.10.0 から非サポートになりました。何らかの理由で Cent OS 7 を継続して利用しないといけない場合は、v3.9.3 までのバージョンを利用してください。

v3.9.x 代のサポートは 2025 年 9 月 5 日までです。

おわりに

AWS ParallelCluster 3.10.0 は、スポットインスタンスの最適化や設定の簡略化など、ユーザビリティの向上に焦点を当てたアップデートとなっています。近日中に AWS HPC Blog から公式アナウンスがあると予想されます。その内容を踏まえ、実際の使用感を検証したブログを後日公開する予定です。