AWS ParallelCluster 3.13.0 のアップデート紹介

AWS ParallelCluster 3.13.0 のアップデート紹介

Clock Icon2025.04.05

AWS ParallelCluster 3.13.0 が一般提供開始されました。今回のリリースでは、待望の Ubuntu 24.04 がサポートされました。さらに、EFA 対応の FSx Lustre ファイルシステムのサポートにより、Lustre ユーザーには熱い内容となっています。

https://aws.amazon.com/jp/about-aws/whats-new/2025/04/aws-parallelcluster-3-13-ubuntu-24-04-efa-enabled-amazon-fsx-lustre-filesystems/

3.13.0 の主な新機能と改善点

Ubuntu 24.04 を新たにサポート

Ubuntu 24.04 が新たにサポートされ、最新 LTS バージョンで HPC クラスターを構築できるようになりました。

    {
      "level": "ERROR",
      "type": "HeadNodeMemorySizeValidator",
      "message": "Head node instance type t3a.micro has 1.0 GB of memory. Please choose a head node instance type with at least 1.7999999999999998 GB of memory to manage 30 compute nodes."
    }
    {
      "level": "WARNING",
      "type": "InstanceTypeOSCompatibleValidator",
      "message": "It is not recommended to use instance type t3a.micro with ubuntu2404. If you want to use ubuntu2404 it is recommended to use an instance type with at least 1.7 GB of memory."
    },

Ubuntu 20.04 をサポートする最後のバージョン

Ubuntu 20.04 は 2025 年 5 月に標準サポートが終了します。ParallelCluster 3.13 が Ubuntu 20.04 をサポートする最後のバージョンとなります。Ubuntu 20.04 ユーザーは、この機会に 22.04 または 24.04 への移行をご検討ください。

EFA 対応 FSx for Lustre のサポート

今回のリリースで最も注目すべきアップデートは、EFA 対応の FSx for Lustre のサポートです。

EFA 対応インスタンスと FSx for Lustre の組み合わせにより、パフォーマンスが最大で 8 倍向上します。より高いスループットをだせるということは、ストレージから特にリードの多いジョブは早く完了させられる可能性があります。つまり、コンピュートノードのコスト削減にもつながりますね。

EFA 対応 FSx Lustre ファイルシステムを使用したクラスター作成方法については以下のドキュメントを参照してください。

https://docs.aws.amazon.com/parallelcluster/latest/ug/tutorial-efa-enabled-fsx-lustre.html

EFS 対応のインスタンスタイプを確認する方法は以下の記事を参考にしてください。

https://dev.classmethod.jp/articles/how-to-get-efa-supported-instance-types-using-aws-cli/

コンピュートノードの起動時間短縮

コンピュートノードのブートストラップから cfn-init の使用を削除し、ノードのスケールアップ時間を短縮されました。

起動時間を計測してみた

Ubuntu 24.04 を使用した ParallelCluster 3.13.0 のクラスターで、ジョブのサブミットから開始までの時間を 3 回計測しました。

/var/log/slurmctld.log
[2025-04-05T00:19:18.349] _slurm_rpc_submit_batch_job: JobId=1 InitPrio=1 usec=582 # ジョブサブミット
--- 中略 ---
[2025-04-05T00:24:39.000] Resetting JobId=1 start time for node power up # ジョブ開始

ジョブサブミットからジョブ開始までは約 5 分 30 秒でした

No. ジョブサブミット ジョブ開始 起動時間(分)
1 9:19:18 9:24:39 5分35秒
2 9:19:27 9:24:39 5分2秒
3 9:19:31 9:24:39 5分13秒
平均 5分23秒

以前のバージョン 3.11 では起動時間が 2 分 35 秒だったため、今回の結果は予想より長くなりました。ただし、EC2 の起動時間は時間帯によってバラツキがあるため、今回はタイミングが悪かったかもしれません。

https://dev.classmethod.jp/articles/aws-parallelcluster-v311-released/

デフォルトのルートボリュームサイズを 45GB に変更

最低ディスクサイズが 40GB から 45GB へ 5GB 引き上げられました。ParallelCluster 2.x 系の初期バージョンでは 20GB が最低容量でしたが、アップデートを重ねるごとにディスクサイズが大きくなっていってます。

サポート期限

3.13.xバージョンのサポート期限は 2026 年 9 月 30 日までです。

AWS ParallelCluster support policy - AWS ParallelCluster

検証環境とクラスター構成

以下の環境で ParallelCluster 3.13.0 の検証を実施しました。

検証環境

項目
AWS ParallelCluster 3.13.0
OS Ubuntu 24.04
ヘッドノード t3a.small
リージョン ap-northeast-1

クラスターコンフィグ

折りたたみ
Region: ap-northeast-1
Image:
  Os: ubuntu2404
Tags:
  - Key: Name
    Value: cluster-v3.13.0

# ----------------------------------------------------------------
# Head Node Settings
# ----------------------------------------------------------------
HeadNode:
  InstanceType: t3a.small
  Networking:
    ElasticIp: false
    SubnetId: subnet-029f0fb0acc64043d
  LocalStorage:
    RootVolume:
      Size: 45
      Encrypted: true
      VolumeType: gp3
      Iops: 3000
      Throughput: 125
  Iam:
    AdditionalIamPolicies:
      - Policy: arn:aws:iam::aws:policy/AmazonSSMManagedInstanceCore

# ----------------------------------------------------------------
# Compute Node Settings
# ----------------------------------------------------------------
Scheduling:
  Scheduler: slurm
  SlurmSettings:
    ScaledownIdletime: 5
  SlurmQueues:
  # ------ Compute ------
    - Name: test
      ComputeResources:
        - Name: test
          Instances:
            - InstanceType: t3a.micro
          MinCount: 0
          MaxCount: 10
          DisableSimultaneousMultithreading: true
      ComputeSettings:
        LocalStorage:
          RootVolume:
            Size: 45
            Encrypted: true
            VolumeType: gp3
            Iops: 3000
            Throughput: 125
      CapacityType: SPOT
      AllocationStrategy: price-capacity-optimized
      Networking:
        SubnetIds:
          - subnet-029f0fb0acc64043d
          - subnet-0b9c598622ad54e61
          - subnet-01559948e762bd434
        PlacementGroup:
          Enabled: false
      Iam:
        AdditionalIamPolicies:
          - Policy: arn:aws:iam::aws:policy/AmazonSSMManagedInstanceCore
    # ------ Compute ------
    - Name: p1
      ComputeResources:
        - Name: c7a
          Instances:
            - InstanceType: c7a.xlarge
          MinCount: 0
          MaxCount: 10
          DisableSimultaneousMultithreading: true
      ComputeSettings:
        LocalStorage:
          RootVolume:
            Size: 45
            Encrypted: true
            VolumeType: gp3
            Iops: 3000
            Throughput: 125
      CapacityType: SPOT
      AllocationStrategy: price-capacity-optimized
      Networking:
        SubnetIds:
          - subnet-029f0fb0acc64043d
          - subnet-0b9c598622ad54e61
          - subnet-01559948e762bd434
        PlacementGroup:
          Enabled: false
      Iam:
        AdditionalIamPolicies:
          - Policy: arn:aws:iam::aws:policy/AmazonSSMManagedInstanceCore
    # ------ Compute ------
    - Name: p2
      ComputeResources:
        - Name: c7a16x
          Instances:
            - InstanceType: c7a.16xlarge
          MinCount: 0
          MaxCount: 10
          DisableSimultaneousMultithreading: true
      ComputeSettings:
        LocalStorage:
          RootVolume:
            Size: 45
            Encrypted: true
            VolumeType: gp3
            Iops: 3000
            Throughput: 125
      CapacityType: SPOT
      AllocationStrategy: price-capacity-optimized
      Networking:
        SubnetIds:
          - subnet-029f0fb0acc64043d
          - subnet-0b9c598622ad54e61
          - subnet-01559948e762bd434
        PlacementGroup:
          Enabled: false
      Iam:
        AdditionalIamPolicies:
          - Policy: arn:aws:iam::aws:policy/AmazonSSMManagedInstanceCore

# ----------------------------------------------------------------
# Shared Storage Settings
# ----------------------------------------------------------------
SharedStorage:
  - MountDir: /home
    Name: efs1
    StorageType: Efs
    EfsSettings:
      FileSystemId: fs-0f66550e47cbc924b

# ----------------------------------------------------------------
#  Other Settings
# ----------------------------------------------------------------
Monitoring:
  Logs:
    CloudWatch:
      Enabled: true
      RetentionInDays: 180
      DeletionPolicy: "Delete"
  Dashboards:
    CloudWatch:
      Enabled: false

まとめ

AWS ParallelCluster 3.13.0 では、Ubuntu 24.04 のサポート開始と EFA 対応 FSx Lustre をサポートが大きな変化でした。特に EFA 対応 FSx Lustre は最大 8 倍のパフォーマンス向上が期待でき、Lustre ユーザーは積極的にクラスターの乗り換えを検討したいところです。一方で、Ubuntu 24.04 を使用する場合はメモリ要件が厳しくなり、最低 1.8GB 以上が必要になりました。Ubuntu 20.04 ユーザーはサポート終了が近づいているため、新しいバージョンへの移行を検討すべき時期です。

おわりに

今回は AWS ParallelCluster 3.13.0 の主要な新機能と改善点を紹介しました。FSx for Lustre の EFA サポートについては、別の機会に検証を行いご紹介したいと思います。

参考

Share this article

facebook logohatena logotwitter logo

© Classmethod, Inc. All rights reserved.