まるクラ勉強会で「AWS ParallelClusterとTrainiumを使って大規模言語モデルをトレーニングする入門」というタイトルで登壇しました
AWS ParallelCluster 環境で学ぶ Enroot の基本操作とPyxis 活用方法
AWS ParallelCluster 3.11.0 でコンテナベースのワークロード実行が標準サポートされました
ParallelClusterでTrainiumを使ってTanuki-8Bをベースにモデル学習してみた
AWS ParallelCluster Slurm アカウンティング設定に必要なリソースを AWS CDK で作成してみた
AWS ParallelCluster 既存クラスターに Slurm Accounting 設定を後から追加できるのか検証してみた
AWS ParallelCluster で Slurm Accounting の設定方法を解説
ワークショップを通じてAWS ParallelClusterに入門してみた
AWS ParallelCluster 更新処理失敗からの復旧 - CloudFormation スタックの修正手順
AWS ParallelCluster Slurm アカウンティングのデータベース接続トラブルシューティングガイド
AWS ParallelCluster スポットインスタンス中断時ローカルストレージのデータを S3 に退避する方法
GitHub Actions で pcluster コマンド実行環境の Docker イメージをマルチプラットフォームビルドしてみた
AWS ParallelCluster 3.10.0 でスポットインスタンスのコスト削減と安定性を両立する新戦略が追加されました
Trinity のパフォーマンスモニタリング機能を Apptainer で動く Trinity コンテナで試してみた
Trinity 中間ファイルの保存先ストレージの違いで処理時間に影響あるのか確認してみた
Trinity インプットデータの保存先ストレージの違いで処理時間に影響あるのか確認してみた (S3 vs インスタンスストア)
AWS ParallelCluster のコンピュートノードのインスタンス ID からジョブ ID を特定する方法
AWS ParallelCluster Ubuntu 22.04 で Mountpoint for Amazon S3 を使ってヘッドノードとコンピュートノードに S3 バケットを自動マウントする方法
AWS ParallelCluster OnNodeConfigured セクションの Args を変更してもクラスターの更新をかけられないときに検討したこと
AWS ParallelCluster で Apptainer と Mountpoint for Amazon S3 の組み合わせて Trinity を実行してみた
AWS ParallelCluster で Apptainer を利用して Trinity を実行してみた
AWS ParallelCluster 3.3.0 から 3.9.0 特定の操作により共有ストレージのデータが削除される問題と対処方法について
AWS ParallelCluster で Apptainer を実行する Apptainer on ParallelCluster の実装方法
AWS ParallelCluster カスタムブートストラップスクリプトでクラスターコンフィグから引数を受け取るスクリプトを試してみた
AWS ParallelCluster コンピュートフリートを停止しなくてもクラスターの設定変更をできる新機能を試してみた
AWS ParallelCluster CloudFormation のスタック作成速度向上によりクラスターのデプロイ速度は早くなったのか確認してみた
AWS ParallelCluster 3.9.0 で Slurm Queue の設定変更のためにコンピュートフリートを停止しなくて済むようになりました
AWS ParallelCluster ジョブをサブミット後にスポットインスタンスが起動してこない原因と対処方法 – サービスクォータ編
AWS ParallelCluster 既存クラスターの設定を変更する手順 – fish シェル編
AWS ParallelCluster で M7i / M7a インスタンスは利用可能なのか確認してみた
AWS ParallelCluster Slurm アカウンテイングのためのデータベースサービスについて考えた
AWS ParallelCluster コンピュートノードはインスタンスメタデータからタグ情報を取得できるのでしょうか?
AWS ParallelCluster 3.8.0 でクラスタースケーリング戦略が追加されコンピュートノードの起動の仕方を選べるようになりました
AWS FIS のスポットインスタンスの中断アクションは AWS ParallelCluster のコンピュートノードにも使えるのでしょうか?
AWS ParallelCluster ジョブをサブミット後にスポットインスタンスが起動してこない原因と対処方法 – サービスリンクロール未作成編
AWS ParallelCluster 3.7.2 がリリースされ Slurm の脆弱性に対応済みのバージョンとなりました(CVE-2023-41914)
© Classmethod, Inc. All rights reserved.