AWS ParallelCluster 3.13.0 のアップデート紹介
AWS ParallelCluster 3.13.0 が一般提供開始されました。今回のリリースでは、待望の Ubuntu 24.04 がサポートされました。さらに、EFA 対応の FSx for Lustre ファイルシステムのサポートにより、Lustre ユーザーには熱い内容となっています。
主な新機能と改善点
Ubuntu 24.04 を新たにサポート
Ubuntu 24.04 が新たにサポートされ、最新 LTS バージョンで HPC クラスターを構築できるようになりました。
試してみた
Ubuntu 24.04 を使用した ParallelCluster 3.13.0 のクラスターを作成してわかったことをまとめます。
{
"level": "ERROR",
"type": "HeadNodeMemorySizeValidator",
"message": "Head node instance type t3a.micro has 1.0 GB of memory. Please choose a head node instance type with at least 1.7999999999999998 GB of memory to manage 30 compute nodes."
}
{
"level": "WARNING",
"type": "InstanceTypeOSCompatibleValidator",
"message": "It is not recommended to use instance type t3a.micro with ubuntu2404. If you want to use ubuntu2404 it is recommended to use an instance type with at least 1.7 GB of memory."
},
Ubuntu 20.04 をサポートする最後のバージョン
Ubuntu 20.04 は 2025 年 5 月に標準サポートが終了します。ParallelCluster 3.13 が Ubuntu 20.04 をサポートする最後のバージョンとなります。Ubuntu 20.04 ユーザーは、この機会に 22.04 または 24.04 への移行をご検討ください。
EFA 対応 FSx for Lustre のサポート
今回のリリースで最も注目すべきアップデートは、EFA 対応の FSx for Lustre のサポートです。
EFA 対応インスタンスと FSx for Lustre の組み合わせにより、パフォーマンスが最大で 8 倍向上します。より高いスループットをだせるということは、ストレージから特にリードの多いジョブは早く完了させられる可能性があります。つまり、コンピュートノードのコスト削減にもつながりますね。
EFA 対応 FSx Lustre ファイルシステムを使用したクラスター作成方法については以下のドキュメントを参照してください。
EFS 対応のインスタンスタイプを確認する方法は以下の記事を参考にしてください。
コンピュートノードの起動時間短縮
コンピュートノードのブートストラップから cfn-init の使用を削除し、ノードのスケールアップ時間を短縮されました。
起動時間を計測してみた
Ubuntu 24.04 を使用した ParallelCluster 3.13.0 のクラスターで、ジョブのサブミットから開始までの時間を 3 回計測しました。
[2025-04-05T00:19:18.349] _slurm_rpc_submit_batch_job: JobId=1 InitPrio=1 usec=582 # ジョブサブミット
--- 中略 ---
[2025-04-05T00:24:39.000] Resetting JobId=1 start time for node power up # ジョブ開始
ジョブサブミットからジョブ開始までは約 5 分 30 秒でした
No. | ジョブサブミット | ジョブ開始 | 起動時間(分) |
---|---|---|---|
1 | 9:19:18 | 9:24:39 | 5分35秒 |
2 | 9:19:27 | 9:24:39 | 5分2秒 |
3 | 9:19:31 | 9:24:39 | 5分13秒 |
平均 | 5分23秒 |
以前のバージョン 3.11 では起動時間が 2 分 35 秒だったため、今回の結果は予想より長くなりました。ただし、EC2 の起動時間は時間帯によってバラツキがあるため、今回はタイミングが悪かったかもしれません。
デフォルトのルートボリュームサイズを 45GB に変更
最低ディスクサイズが 40GB から 45GB へ 5GB 引き上げられました。ParallelCluster 2.x 系の初期バージョンでは 20GB が最低容量でしたが、アップデートを重ねるごとにディスクサイズが大きくなっていってます。
サポート期限
3.13.x
バージョンのサポート期限は 2026 年 9 月 30 日までです。
AWS ParallelCluster support policy - AWS ParallelCluster
検証環境とクラスター構成
以下の環境で ParallelCluster 3.13.0 の検証を実施しました。
検証環境
項目 | 値 |
---|---|
AWS ParallelCluster | 3.13.0 |
OS | Ubuntu 24.04 |
ヘッドノード | t3a.small |
リージョン | ap-northeast-1 |
クラスターコンフィグ
折りたたみ
Region: ap-northeast-1
Image:
Os: ubuntu2404
Tags:
- Key: Name
Value: cluster-v3.13.0
# ----------------------------------------------------------------
# Head Node Settings
# ----------------------------------------------------------------
HeadNode:
InstanceType: t3a.small
Networking:
ElasticIp: false
SubnetId: subnet-029f0fb0acc64043d
LocalStorage:
RootVolume:
Size: 45
Encrypted: true
VolumeType: gp3
Iops: 3000
Throughput: 125
Iam:
AdditionalIamPolicies:
- Policy: arn:aws:iam::aws:policy/AmazonSSMManagedInstanceCore
# ----------------------------------------------------------------
# Compute Node Settings
# ----------------------------------------------------------------
Scheduling:
Scheduler: slurm
SlurmSettings:
ScaledownIdletime: 5
SlurmQueues:
# ------ Compute ------
- Name: test
ComputeResources:
- Name: test
Instances:
- InstanceType: t3a.micro
MinCount: 0
MaxCount: 10
DisableSimultaneousMultithreading: true
ComputeSettings:
LocalStorage:
RootVolume:
Size: 45
Encrypted: true
VolumeType: gp3
Iops: 3000
Throughput: 125
CapacityType: SPOT
AllocationStrategy: price-capacity-optimized
Networking:
SubnetIds:
- subnet-029f0fb0acc64043d
- subnet-0b9c598622ad54e61
- subnet-01559948e762bd434
PlacementGroup:
Enabled: false
Iam:
AdditionalIamPolicies:
- Policy: arn:aws:iam::aws:policy/AmazonSSMManagedInstanceCore
# ------ Compute ------
- Name: p1
ComputeResources:
- Name: c7a
Instances:
- InstanceType: c7a.xlarge
MinCount: 0
MaxCount: 10
DisableSimultaneousMultithreading: true
ComputeSettings:
LocalStorage:
RootVolume:
Size: 45
Encrypted: true
VolumeType: gp3
Iops: 3000
Throughput: 125
CapacityType: SPOT
AllocationStrategy: price-capacity-optimized
Networking:
SubnetIds:
- subnet-029f0fb0acc64043d
- subnet-0b9c598622ad54e61
- subnet-01559948e762bd434
PlacementGroup:
Enabled: false
Iam:
AdditionalIamPolicies:
- Policy: arn:aws:iam::aws:policy/AmazonSSMManagedInstanceCore
# ------ Compute ------
- Name: p2
ComputeResources:
- Name: c7a16x
Instances:
- InstanceType: c7a.16xlarge
MinCount: 0
MaxCount: 10
DisableSimultaneousMultithreading: true
ComputeSettings:
LocalStorage:
RootVolume:
Size: 45
Encrypted: true
VolumeType: gp3
Iops: 3000
Throughput: 125
CapacityType: SPOT
AllocationStrategy: price-capacity-optimized
Networking:
SubnetIds:
- subnet-029f0fb0acc64043d
- subnet-0b9c598622ad54e61
- subnet-01559948e762bd434
PlacementGroup:
Enabled: false
Iam:
AdditionalIamPolicies:
- Policy: arn:aws:iam::aws:policy/AmazonSSMManagedInstanceCore
# ----------------------------------------------------------------
# Shared Storage Settings
# ----------------------------------------------------------------
SharedStorage:
- MountDir: /home
Name: efs1
StorageType: Efs
EfsSettings:
FileSystemId: fs-0f66550e47cbc924b
# ----------------------------------------------------------------
# Other Settings
# ----------------------------------------------------------------
Monitoring:
Logs:
CloudWatch:
Enabled: true
RetentionInDays: 180
DeletionPolicy: "Delete"
Dashboards:
CloudWatch:
Enabled: false
まとめ
AWS ParallelCluster 3.13.0 では、Ubuntu 24.04 のサポート開始と EFA 対応 FSx for Lustre をサポートが大きな変化でした。特に EFA 対応 FSx Lustre は最大 8 倍のパフォーマンス向上が期待でき、Lustre ユーザーは積極的にクラスターの乗り換えを検討したいところです。一方で、ヘッドノードで要求されるメモリサイズの判定が追加され、メモリ要件が厳しくなりました。Ubuntu 20.04 ユーザーはサポート終了が近づいているため、新しいバージョンへの移行を検討すべき時期です。
おわりに
今回は AWS ParallelCluster 3.13.0 の主要な新機能と改善点を紹介しました。FSx for Lustre の EFA サポートについては、別の機会に検証を行いご紹介したいと思います。