
AWS ParallelCluster の SlurmQueues と ComputeResources で登場する Name はクラスターのどこで使われているのか調べてみた
この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。
AWS ParallelClusterのコンフィグ内にSlurmQueuesのNameと、ComputeResourcesのNameが連続して2つでてきます。
Scheduling:
Scheduler: slurm
SlurmSettings:
ScaledownIdletime: 5
SlurmQueues:
- Name: test-low
ComputeResources:
- Name: large
SlurmQueuesのName はジョブ投げるときにキューの指定で頻出するので名前をなんと付けるとわかりやすいのかと悩みます。ですが、ComputeResourcesのNameに至ってはどこで使われているか把握していませんでした。たまたま気がついたので忘れないように書き残しておきます。
確認結果
確認したいこと
以下の2つの名前はどこで使われているのでしょうか?
SlurmQueuesのNameComputeResourcesのName
コンフィグ内だと以下の箇所です。
Scheduling:
Scheduler: slurm
SlurmSettings:
ScaledownIdletime: 5
SlurmQueues:
- Name: test-low
ComputeResources:
- Name: large
ユーザーガイド情報
説明からはParallelClusterのどこで使われているかまではわかりません。
The name of the Slurm queue. SlumQueues-Name
Name for the compute environment for the Slurm queue. ComputeResources-Name
ヘッドノードから確認できた
sinfoの実行結果から確認できました。
SlurmQueuesのNameはPARTITION名で使われるComputeResourcesのNameはNODELISTのdy-以降に使われる
PARTITION AVAIL TIMELIMIT NODES STATE NODELIST test-low* up infinite 10 idle~ test-low-dy-large-[1-10] test-high up infinite 10 idle~ test-high-dy-large8x-[1-10] cpu-spot up infinite 10 idle~ cpu-spot-dy-large-[1-10] high-cpu-spot up infinite 10 idle~ high-cpu-spot-dy-large2x-[1-10]
NODELISTの書式
以下の書式で表示されていました。
SlurmQueues-Name-dy-ComputeResources-Name-[Nodes]
おわりに
PARTITION名はジョブ投げるときに指定するためよく使うのでSlurmQueuesのNameは意識した名前付けしていました。NODELISTはノード数だけしか見ていなかったのでComputeResourcesのNameが使われていることに気づきませんでした。同じく疑問をもった方のお役にたてれば幸いです。
ComputeResourcesのNameはあまり気にならない表示だったので命名にこだわらなくてもよいかなという感想です。SlurmQueuesのNameは変な名前だとジョブ投げる人が困るのでわかりやすい名前をつけるとよいです!








