[アップデート] Amazon FSx for Lustre のバージョンアップが可能に!手順と注意点を紹介
Amazon FSx for Lustre で、ファイルシステムの Lustre バージョンをアップグレードできるようになりました。これにより、既存のファイルシステムで新しい Lustre バージョンの機能やパフォーマンス改善の恩恵を受けることができます。
なにが嬉しいのか
従来は、Lustre のバージョンアップするには新規ファイルシステム作成が必要でした。今回の更新で既存システムを直接アップグレードでき、ダウンタイムと運用負荷を低減します。
注意点とベストプラクティス
Lustre バージョンアップ前に以下を確認してください。
- 互換性確認
- Lustre バージョンとクライアントのカーネルバージョンの互換性を確認。
- Lustre file system and client kernel compatibility - FSx for Lustre
- ダウンタイム
- アップグレード中はファイルシステムにアクセス不可。
- 事前テスト
- 本番環境適用前にテスト環境で動作確認。
- バックアップ
- S3 と未連携なら、アップグレード前にバックアップ取得を推奨。
詳細な手順とベストプラクティスは、以下の AWS ドキュメントを参照してください。
検証環境
今回は AWS ParallelCluster に FSx for Lustre をマウントした環境で検証しました。
項目 | バージョン |
---|---|
ParallelCluster | 3.12.0 |
Lustre クライアント | 2.15.3_114_gb61b66c_dirty |
OS | Amazon Linux 2023 |
カーネル | 6.1.102-111.182.amzn2023.x86_64 |
Lustre クライアントバージョン
$ modinfo lustre | grep '^version:'
version: 2.15.3_114_gb61b66c_dirty
カーネルバージョン
$ uname -r
6.1.102-111.182.amzn2023.x86_64
アップデートしてみた
Lustre のバージョンは 2.12 から 2.15 へアップグレードを行い動作確認してみます。
ヘッドノード(EC2)には/mnt/lustre
配下に FSx for Lustre をマウントしています。
[ec2-user@ip-10-0-1-225 lustre]$ df -h
Filesystem Size Used Avail Use% Mounted on
devtmpfs 4.0M 0 4.0M 0% /dev
tmpfs 3.8G 0 3.8G 0% /dev/shm
tmpfs 1.6G 8.7M 1.6G 1% /run
/dev/nvme0n1p1 40G 20G 21G 50% /
tmpfs 3.8G 12K 3.8G 1% /tmp
/dev/nvme0n1p128 10M 1.3M 8.7M 13% /boot/efi
10.0.1.249@tcp:/wl7a3bev 1.1T 7.7M 1.1T 1% /mnt/lustre
tmpfs 778M 0 778M 0% /run/user/0
[ec2-user@ip-10-0-1-225 lustre]$ ll /mnt/lustre/
total 25
drwxr-xr-x 2 root root 25088 Feb 17 21:30 s3-test-data
前提事項確認
Lustre クライアントのバージョンは 2.15 を利用しているため、Lustre のバージョンが 2.12 から 2.15 にアップグレードしても問題ないことを確認しました。
FSx for Lustre に接続しているクライアントがあると、アップグレードが進まないとドキュメントに記載があります。接続数はClientConnections
のメトリクスから確認できます。以下は合計 2 台クライアントが接続中の様子です。
クライアント接続があるとアップグレードが進まないため、ClientConnections
メトリクスを確認します。2 台接続中です。
クライアント停止後、接続数が 0 になりました。
検証に用いた FSx for Lustre は S3 とリンクした構成です。S3 へデータ同期が完了しているかAgeOfOldestQueuedMessage
のAutoExport
のメトリクスが 0 であることを確認しました。
バージョンアップグレード
アップグレードする FSx for Lustre ファイルシステムを選択します。更新をクリックします。
アップグレードするバージョンを選択して更新をクリックします。
アップグレードが開始されました。
15 分ほど放置して確認すると、Lustre のバージョンが 2.15 の表記に切り変わっていました。
アップグレード後の接続確認
ヘッドノードを起動し FSx for Lustre をマウントしたパスにアクセスしました。問題なくアクセス可能でした。
$ ls -l /mnt/lustre/s3-test-data/
total 1
-rwxr-xr-x 1 root root 7 Feb 17 21:33 this_file_is_on_s3
まとめ
FSx for Lustre バージョンアップ機能で、最新 Lustre バージョンへの切替が簡単になりました。
前提条件を確認し、テスト環境での検証後、本番適用を検討してください。
おわりに
近年、LLM のトレーニングで ParallelCluster や HyperPod との組み合わせで FSx for Lustre を利用する場面が増えているように感じます。