[アップデート] Amazon FSx for Lustre のバージョンアップが可能に!手順と注意点を紹介

[アップデート] Amazon FSx for Lustre のバージョンアップが可能に!手順と注意点を紹介

Clock Icon2025.02.19

Amazon FSx for Lustre で、ファイルシステムの Lustre バージョンをアップグレードできるようになりました。これにより、既存のファイルシステムで新しい Lustre バージョンの機能やパフォーマンス改善の恩恵を受けることができます。

https://aws.amazon.com/jp/about-aws/whats-new/2025/02/amazon-fsx-lustre-lustre-version-upgrades/

なにが嬉しいのか

従来は、Lustre のバージョンアップするには新規ファイルシステム作成が必要でした。今回の更新で既存システムを直接アップグレードでき、ダウンタイムと運用負荷を低減します。

注意点とベストプラクティス

Lustre バージョンアップ前に以下を確認してください。

  • 互換性確認
  • ダウンタイム
    • アップグレード中はファイルシステムにアクセス不可。
  • 事前テスト
    • 本番環境適用前にテスト環境で動作確認。
  • バックアップ
    • S3 と未連携なら、アップグレード前にバックアップ取得を推奨。

詳細な手順とベストプラクティスは、以下の AWS ドキュメントを参照してください。

検証環境

今回は AWS ParallelCluster に FSx for Lustre をマウントした環境で検証しました。

項目 バージョン
ParallelCluster 3.12.0
Lustre クライアント 2.15.3_114_gb61b66c_dirty
OS Amazon Linux 2023
カーネル 6.1.102-111.182.amzn2023.x86_64

Lustre クライアントバージョン

$ modinfo lustre | grep '^version:'
version:        2.15.3_114_gb61b66c_dirty

カーネルバージョン

$ uname -r
6.1.102-111.182.amzn2023.x86_64

アップデートしてみた

Lustre のバージョンは 2.12 から 2.15 へアップグレードを行い動作確認してみます。

ヘッドノード(EC2)には/mnt/lustre配下に FSx for Lustre をマウントしています。

[ec2-user@ip-10-0-1-225 lustre]$ df -h
Filesystem                Size  Used Avail Use% Mounted on
devtmpfs                  4.0M     0  4.0M   0% /dev
tmpfs                     3.8G     0  3.8G   0% /dev/shm
tmpfs                     1.6G  8.7M  1.6G   1% /run
/dev/nvme0n1p1             40G   20G   21G  50% /
tmpfs                     3.8G   12K  3.8G   1% /tmp
/dev/nvme0n1p128           10M  1.3M  8.7M  13% /boot/efi
10.0.1.249@tcp:/wl7a3bev  1.1T  7.7M  1.1T   1% /mnt/lustre
tmpfs                     778M     0  778M   0% /run/user/0

[ec2-user@ip-10-0-1-225 lustre]$ ll /mnt/lustre/
total 25
drwxr-xr-x 2 root root 25088 Feb 17 21:30 s3-test-data

前提事項確認

Lustre クライアントのバージョンは 2.15 を利用しているため、Lustre のバージョンが 2.12 から 2.15 にアップグレードしても問題ないことを確認しました。

Lustre_file_system_and_client_kernel_compatibility_-_FSx_for_Lustre.png

FSx for Lustre に接続しているクライアントがあると、アップグレードが進まないとドキュメントに記載があります。接続数はClientConnectionsのメトリクスから確認できます。以下は合計 2 台クライアントが接続中の様子です。

クライアント接続があるとアップグレードが進まないため、ClientConnections メトリクスを確認します。2 台接続中です。

メトリクス___CloudWatch___ap-northeast-1-25.png

クライアント停止後、接続数が 0 になりました。

メトリクス___CloudWatch___ap-northeast-1-26.png

検証に用いた FSx for Lustre は S3 とリンクした構成です。S3 へデータ同期が完了しているかAgeOfOldestQueuedMessageAutoExportのメトリクスが 0 であることを確認しました。

Notification_Center-92.png

バージョンアップグレード

アップグレードする FSx for Lustre ファイルシステムを選択します。更新をクリックします。

ファイルシステムの詳細___FSx___ap-northeast-1-12-1.png

アップグレードするバージョンを選択して更新をクリックします。

Cursor_と_ファイルシステムの詳細___FSx___ap-northeast-1-1.png

アップグレードが開始されました。

FSx___ap-northeast-1-3.png

15 分ほど放置して確認すると、Lustre のバージョンが 2.15 の表記に切り変わっていました。

ファイルシステムの詳細___FSx___ap-northeast-1-14.png

アップグレード後の接続確認

ヘッドノードを起動し FSx for Lustre をマウントしたパスにアクセスしました。問題なくアクセス可能でした。

$ ls -l /mnt/lustre/s3-test-data/
total 1
-rwxr-xr-x 1 root root 7 Feb 17 21:33 this_file_is_on_s3

まとめ

FSx for Lustre バージョンアップ機能で、最新 Lustre バージョンへの切替が簡単になりました。
前提条件を確認し、テスト環境での検証後、本番適用を検討してください。

おわりに

近年、LLM のトレーニングで ParallelCluster や HyperPod との組み合わせで FSx for Lustre を利用する場面が増えているように感じます。

Share this article

facebook logohatena logotwitter logo

© Classmethod, Inc. All rights reserved.