AWS ParallelCluster の SlurmQueues と ComputeResources で登場する Name はクラスターのどこで使われているのか調べてみた
AWS ParallelClusterのコンフィグ内にSlurmQueues
のName
と、ComputeResources
のName
が連続して2つでてきます。
Scheduling: Scheduler: slurm SlurmSettings: ScaledownIdletime: 5 SlurmQueues: - Name: test-low ComputeResources: - Name: large
SlurmQueues
のName
はジョブ投げるときにキューの指定で頻出するので名前をなんと付けるとわかりやすいのかと悩みます。ですが、ComputeResources
のName
に至ってはどこで使われているか把握していませんでした。たまたま気がついたので忘れないように書き残しておきます。
確認結果
確認したいこと
以下の2つの名前はどこで使われているのでしょうか?
SlurmQueues
のName
ComputeResources
のName
コンフィグ内だと以下の箇所です。
Scheduling: Scheduler: slurm SlurmSettings: ScaledownIdletime: 5 SlurmQueues: - Name: test-low ComputeResources: - Name: large
ユーザーガイド情報
説明からはParallelClusterのどこで使われているかまではわかりません。
The name of the Slurm queue. SlumQueues-Name
Name for the compute environment for the Slurm queue. ComputeResources-Name
ヘッドノードから確認できた
sinfoの実行結果から確認できました。
SlurmQueues
のName
はPARTITION
名で使われるComputeResources
のName
はNODELIST
のdy-
以降に使われる
PARTITION AVAIL TIMELIMIT NODES STATE NODELIST test-low* up infinite 10 idle~ test-low-dy-large-[1-10] test-high up infinite 10 idle~ test-high-dy-large8x-[1-10] cpu-spot up infinite 10 idle~ cpu-spot-dy-large-[1-10] high-cpu-spot up infinite 10 idle~ high-cpu-spot-dy-large2x-[1-10]
NODELISTの書式
以下の書式で表示されていました。
SlurmQueues-Name
-dy-ComputeResources-Name
-[Nodes]
おわりに
PARTITION
名はジョブ投げるときに指定するためよく使うのでSlurmQueues
のName
は意識した名前付けしていました。NODELIST
はノード数だけしか見ていなかったのでComputeResources
のName
が使われていることに気づきませんでした。同じく疑問をもった方のお役にたてれば幸いです。
ComputeResources
のName
はあまり気にならない表示だったので命名にこだわらなくてもよいかなという感想です。SlurmQueues
のName
は変な名前だとジョブ投げる人が困るのでわかりやすい名前をつけるとよいです!