AWS ParallelCluster 3.9.0 で Slurm Queue の設定変更のためにコンピュートフリートを停止しなくて済むようになりました

2024.03.13

2024 年 3 月 12 日に AWS ParallelCluster 3.9.0 がリリースされました。v3.8.0 から約 3 か月ぶりのマイナーアップデートです。

3.9.x 系のサポートは 2025 年 9 月 5 日までです。

AWS ParallelCluster support policy - AWS ParallelCluster

注目のアップデート

個人的に注目しているポイントや、このアップデートの目玉をピックアップしています。リリースノートからはアップデート前後の違いを把握することが難しいため、私のわかる範囲で補足します。

  • コンピュートフリートを停止しなくても Slurm Queue の追加できるようになった
  • Red Hat Enterprise Linux 9 を新たにサポート
  • ホームディレクトリを/homeから/local/home/<user name>へ変更できるようになった
  • デフォルトユーザーのsudo権限を無効化する設定項目追加

アップデート詳細はリリースノート、ドキュメントの更新履歴をご確認ください。

コンピュートフリートを停止しなくても Slurm Queue の追加可能

一部の設定項目でコンピュートフリートの停止作業が不要になりました。構築後のクラスターにしてコンフィグを変更しようとするとコンピュートフリートの停止が必要でした。 以下のブログでコンピュートフリートを停止してからクラスターのコンフィグをアップデート(反映)させる方法を紹介しています。

v3.9 からは以下の項目の更新する場合は、コンピュートフリートを停止しなくと良いとのことです。Slurm Queue の追加、コンピュートリソースの追加を手軽に行えるようになったは嬉しいです。

・Adding new queues to Scheduling/SlurmQueues ・Adding new compute resources Scheduling/SlurmQueues/ComputeResources to a queue ・Increasing the MaxCount of a compute resource ・Increasing MinCount of a compute resource and increasing MaxCount of the same compute resource of at least the same amount

Slurm Workload Manager (slurm) - AWS ParallelCluster

RHEL 9 を新たにサポート

RedHat Enterprise Linux 9 を新たにサポートされました。これでサポートしている RHEL 系は 8.7 と、9 になりました。 オンプレのスパコンで RHEL ユーザーの移行先の選択肢の 1 つが増えたのではないでしょうか。RHEL 系は Amazon Linux 2 や Ubuntu 22.04 の様な Linux と比べ利用費が高い点はご注意ください。

ちなみに Amazon Linux 2023 は未だに ParallelCluster ではサポートされていません。Linux ですと CentOS 7 か Amazon Linux 2 、Ubuntu 20.04 or 22.04 または、Rocky 8 or 9 を選べます。

Image section - AWS ParallelCluster

ホームディレクトリを変更できる

DeploymentSettingsセクションでDefaultUserHomeの項目が追加されています。デフォルトはSharedで、Localと明示的に指定すると利用可能です。ホームディレクトリを/home/local/<user name>へ変更できます。

DeploymentSettings:
  DefaultUserHome: 'Local'

デフォルトの/home/<default user>はクラスタ全体で共有されるディレクトリです。ユースケースは共有を避けてユーザー固有のディレクトリを作成したいときに使うもののようです。

DeploymentSettings section - AWS ParallelCluster

DeploymentSettingsセクションなんてあったかなと思ったのですが、v3.4 から存在していました。VPC Lambda の設定項目が追加されたタイミングようです。v3.4 は待望のマルチ AZ 起動をサポートしたので、この件についてはアップデート紹介で一切触れていなく認識していなかっただけでした。

Sudo の制限

DeploymentSettingsセクションでDisableSudoAccessForDefaultUser:の項目が追加されています。

DeploymentSettings:
  DisableSudoAccessForDefaultUser: True

デフォルトユーザーのsudoを権限を無効化できるとのことで、デフォルトユーザーは使わない運用するときにはセキュアに運用できるといったところでしょうか。

DeploymentSettings section - AWS ParallelCluster

おわりに

Queue 編集するためにコンピュートフリート止めないで済むのは熱いです。たびたびインスタンスタイプと、最大起動数を変更していたのでひと手間減って嬉しいです。近々検証して改めて紹介したいと思います。