AWS ParallelCluster の SlurmQueues と ComputeResources で登場する Name はクラスターのどこで使われているのか調べてみた

2022.03.04

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

AWS ParallelClusterのコンフィグ内にSlurmQueuesNameと、ComputeResourcesNameが連続して2つでてきます。

Scheduling:
  Scheduler: slurm
  SlurmSettings:
    ScaledownIdletime: 5
  SlurmQueues:
    - Name: test-low
      ComputeResources:
        - Name: large

SlurmQueuesName はジョブ投げるときにキューの指定で頻出するので名前をなんと付けるとわかりやすいのかと悩みます。ですが、ComputeResourcesNameに至ってはどこで使われているか把握していませんでした。たまたま気がついたので忘れないように書き残しておきます。

確認結果

確認したいこと

以下の2つの名前はどこで使われているのでしょうか?

  • SlurmQueuesName
  • ComputeResourcesName

コンフィグ内だと以下の箇所です。

Scheduling:
  Scheduler: slurm
  SlurmSettings:
    ScaledownIdletime: 5
  SlurmQueues:
    - Name: test-low
      ComputeResources:
        - Name: large

ユーザーガイド情報

説明からはParallelClusterのどこで使われているかまではわかりません。

The name of the Slurm queue. SlumQueues-Name

Name for the compute environment for the Slurm queue. ComputeResources-Name

ヘッドノードから確認できた

sinfoの実行結果から確認できました。

  • SlurmQueuesNamePARTITION名で使われる
  • ComputeResourcesNameNODELISTdy-以降に使われる
PARTITION     AVAIL  TIMELIMIT  NODES  STATE NODELIST
test-low*        up   infinite     10  idle~ test-low-dy-large-[1-10]
test-high        up   infinite     10  idle~ test-high-dy-large8x-[1-10]
cpu-spot         up   infinite     10  idle~ cpu-spot-dy-large-[1-10]
high-cpu-spot    up   infinite     10  idle~ high-cpu-spot-dy-large2x-[1-10]

NODELISTの書式

以下の書式で表示されていました。

SlurmQueues-Name-dy-ComputeResources-Name-[Nodes]

おわりに

PARTITION名はジョブ投げるときに指定するためよく使うのでSlurmQueuesNameは意識した名前付けしていました。NODELISTはノード数だけしか見ていなかったのでComputeResourcesNameが使われていることに気づきませんでした。同じく疑問をもった方のお役にたてれば幸いです。

ComputeResourcesNameはあまり気にならない表示だったので命名にこだわらなくてもよいかなという感想です。SlurmQueuesNameは変な名前だとジョブ投げる人が困るのでわかりやすい名前をつけるとよいです!