AWS ParallelCluster 3.11.0 でコンテナベースのワークロード実行が標準サポートされました
AWS ParallelCluster 3.11.0 が 2024 年 9 月 26 日にリリースされました。このバージョンでは、enroot と pyxis のサポート追加によりコンテナベースのワークロードの実行を標準サポートされました。 近年稀にみるレベルの熱いアップデートです。
注目のアップデート
本アップデートの主要な変更点と、個人的に注目しているポイントをピックアップしました。リリースノートだけではアップデート前後の違いを把握しづらいため、可能な範囲で補足説明を加えています。
アップデート詳細はリリースノート、ドキュメントの更新履歴をご確認ください。
- Release AWS ParallelCluster v3.11.0 · aws/aws-parallelcluster
- ログインノードが強化された AWS ParallelCluster 3.11 が利用可能に - AWS
主要な変更点
- enroot と pyxis のサポート追加
- ログインノードでのカスタムアクションスクリプトのサポート
- ログインノードでの Amazon DCV サポート
これらの変更点について、以下で詳細を説明します。
enroot と pyxis のサポート追加
公式の ParallelCluster AMI に enroot と pyxis が標準でインストールされるようになりました。これにより Slurm を使用して Docker コンテナベースの HPC および ML/AI ワークロードを簡単に実行できるようになりました。
従来、同様のことを実現するにはカスタムアクションスクリプトでインストールが必要でした。カスタムアクションスクリプトについては次の項目で補足説明しています。
enroot と pyxis については以下のリンクを参照ください。
ログインノードでのカスタムアクションスクリプトのサポート
ログインノードに対してカスタムアクションスクリプトを実行できるようになりました。これにより、ヘッドノード、コンピュートノードと同じように追加ソフトウェアのインストール、設定の構成など、ニーズに合わせたログインノードの設定を自動化できます。
LoginNodes section - AWS ParallelCluster
補足: カスタムアクションスクリプトとは
シェルスクリプトを S3 バケットにアップロードし、クラスターのコンフィグファイルから S3 バケットのスクリプトを指定することで、ログインノードなどの EC2 起動時にスクリプトが自動実行される仕組みです。
ログインノードでの Amazon DCV をサポート
Amazon DCV(旧名称: NICE DCV)がログインノードでもサポートされるようになりました。これにより、ユーザーはグラフィカルデスクトップ環境を通じてログインノードへアクセスできます。GUI で操作が必要な方にはありがたいのではないでしょうか。
LoginNodes section - AWS ParallelCluster
その他の更新
- Slurm を 23.11.10 にアップグレード(23.11.7 から)
- NVIDIA ドライバーを 550.90.07 にアップグレード(535.183.01 から)
- CUDA Toolkit を 12.4.1 にアップグレード(12.2.2 から)
- Intel MPI Library を 2021.13.1.769 にアップグレード(2021.12.1.8 から)
サポート期限
3.11.x 系のサポート期間については、 2026 年 3 月 25 日までとなっています。最新情報は AWS ParallelCluster のサポートポリシーをご確認ください。
AWS ParallelCluster support policy - AWS ParallelCluster
まとめ
AWS ParallelCluster 3.11.0 はコンテナベースのワークロードの実行を標準サポートし、熱いアップデートとなりました。
おわりに
独自 LLM 作成のための学習環境として流行りをみせている ParallelCluster ですが、その流れを受けて enroot と pyxis が標準インストールされたように感じました。apptainer ユーザーだったので enroot は詳しくないので検証した結果を別の機会にブログにしようと思います。