AWS ParallelCluster 3.9.0 で Slurm Queue の設定変更のためにコンピュートフリートを停止しなくて済むようになりました
2024 年 3 月 12 日に AWS ParallelCluster 3.9.0 がリリースされました。v3.8.0 から約 3 か月ぶりのマイナーアップデートです。
3.9.x 系のサポートは 2025 年 9 月 5 日までです。
AWS ParallelCluster support policy - AWS ParallelCluster
注目のアップデート
個人的に注目しているポイントや、このアップデートの目玉をピックアップしています。リリースノートからはアップデート前後の違いを把握することが難しいため、私のわかる範囲で補足します。
- コンピュートフリートを停止しなくても Slurm Queue の追加できるようになった
- Red Hat Enterprise Linux 9 を新たにサポート
- ホームディレクトリを
/home
から/local/home/<user name>
へ変更できるようになった - デフォルトユーザーの
sudo
権限を無効化する設定項目追加
アップデート詳細はリリースノート、ドキュメントの更新履歴をご確認ください。
- Release AWS ParallelCluster v3.9.0 · aws/aws-parallelcluster
- Release notes and document history - AWS ParallelCluster
コンピュートフリートを停止しなくても Slurm Queue の追加可能
一部の設定項目でコンピュートフリートの停止作業が不要になりました。構築後のクラスターにしてコンフィグを変更しようとするとコンピュートフリートの停止が必要でした。 以下のブログでコンピュートフリートを停止してからクラスターのコンフィグをアップデート(反映)させる方法を紹介しています。
- AWS ParallelCluster 既存クラスターの設定を変更する手順 – fish シェル編 | DevelopersIO
- AWS ParallelCluster 既存クラスターを pcluster update-cluster コマンドで設定を変更する手順 | DevelopersIO
v3.9 からは以下の項目の更新する場合は、コンピュートフリートを停止しなくと良いとのことです。Slurm Queue の追加、コンピュートリソースの追加を手軽に行えるようになったは嬉しいです。
・Adding new queues to Scheduling/SlurmQueues ・Adding new compute resources Scheduling/SlurmQueues/ComputeResources to a queue ・Increasing the MaxCount of a compute resource ・Increasing MinCount of a compute resource and increasing MaxCount of the same compute resource of at least the same amount
Slurm Workload Manager (slurm) - AWS ParallelCluster
RHEL 9 を新たにサポート
RedHat Enterprise Linux 9 を新たにサポートされました。これでサポートしている RHEL 系は 8.7 と、9 になりました。 オンプレのスパコンで RHEL ユーザーの移行先の選択肢の 1 つが増えたのではないでしょうか。RHEL 系は Amazon Linux 2 や Ubuntu 22.04 の様な Linux と比べ利用費が高い点はご注意ください。
ちなみに Amazon Linux 2023 は未だに ParallelCluster ではサポートされていません。Linux ですと CentOS 7 か Amazon Linux 2 、Ubuntu 20.04 or 22.04 または、Rocky 8 or 9 を選べます。
Image section - AWS ParallelCluster
ホームディレクトリを変更できる
DeploymentSettings
セクションでDefaultUserHome
の項目が追加されています。デフォルトはShared
で、Local
と明示的に指定すると利用可能です。ホームディレクトリを/home/local/<user name>
へ変更できます。
DeploymentSettings: DefaultUserHome: 'Local'
デフォルトの/home/<default user>
はクラスタ全体で共有されるディレクトリです。ユースケースは共有を避けてユーザー固有のディレクトリを作成したいときに使うもののようです。
DeploymentSettings section - AWS ParallelCluster
DeploymentSettings
セクションなんてあったかなと思ったのですが、v3.4 から存在していました。VPC Lambda の設定項目が追加されたタイミングようです。v3.4 は待望のマルチ AZ 起動をサポートしたので、この件についてはアップデート紹介で一切触れていなく認識していなかっただけでした。
Sudo の制限
DeploymentSettings
セクションでDisableSudoAccessForDefaultUser:
の項目が追加されています。
DeploymentSettings: DisableSudoAccessForDefaultUser: True
デフォルトユーザーのsudo
を権限を無効化できるとのことで、デフォルトユーザーは使わない運用するときにはセキュアに運用できるといったところでしょうか。
DeploymentSettings section - AWS ParallelCluster
おわりに
Queue 編集するためにコンピュートフリート止めないで済むのは熱いです。たびたびインスタンスタイプと、最大起動数を変更していたのでひと手間減って嬉しいです。近々検証して改めて紹介したいと思います。