
AWS PCS 検証環境を10分でデプロイ!最小構成のCloudFormationテンプレート紹介
はじめに
AWS PCS (Parallel Computing Service) の検証環境を簡単に構築できる CloudFormation テンプレートを用意しました。AWS 公式のサンプルクラスターとは違いは、高額なリソースは作成せずに最小限の構成に抑えたクラスター環境です。
背景・理由
AWS 公式のサンプル HPC システムの CloudFormation テンプレートが公開されています。FSx for Lustre を含め、一般的な HPC 環境で必要なリソースを約 20 分でデプロイ可能となっており大変便利です。
ですが、ちょっとした機能検証では FSx for Lustre までは必要ありません。PCS クラスター環境の実行環境を手早く準備したいという(個人的な)ニーズがありました。公式のテンプレートベースに必要最小限の構成にカスタマイズし、約 10 分でデプロイ可能な構成を作成しました。
構成図
以下の構成を構築します。
CloudFormation テンプレート
テンプレートは以下から取得してください。
公式サンプルテンプレートとの大きな変更点
AMI 指定
Slurm 24.11 の東京リージョンで利用可能な AWS 公式のサンプル AMI ID をハードコードしています。サンプルテンプレートでは Lambda を用意して Slurm バージョンと、各リージョンに対応した AMI を検索して利用するというリッチな実装です。そこまで汎用性は求めていないため簡略化しました。適宜修正してご利用ください。
Slurm コマンドのパスを通した
上記の AMI はsinfo
やsbatch
などの基本的な Slurm のコマンドにパスが通っていません。不便だったので起動テンプレートでec2-user
に対してパスを通しておきました。
共有ストレージ
EFS をログインノードと、コンピュートノードの/shared
にマウントしてあります。FSx for Lustre は作成しないことで、ランニングコストと、全体のデプロイ時間を短縮しました。
高負荷がかかる計算処理の検証するときは FSx for Lustre, ZFS, ONTAP あたりのストレージを作成、マウントの処理を追加する必要があります。
お片付けについて
検証終了時は CloudFormation スタックを削除するだけで全リソースを一括削除できます。
EFS に保存してあるデータ
EFS に保存したデータは、EFS 毎削除されます。必要であれば退避お願いします。
コスト面の注意事項
AWS PCS の料金体系は時間課金です。30 分で検証を終えたとしても 1 時間分の利用費が発生します。
おわりに
AWS PCS のアップデートが出たときにすぐに検証しなければならない、だが、環境がないを解決するために作成しました。