HPC最適化インスタンスAmazon EC2 HPC6aをベンチマークしてみた

2022.02.04

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

2022年1月にハイパフォーマンスコンピューティング向けに最適化された新しいインスタンスタイプ Amazon EC2 HPC6a が発表されました。

このインスタンスは

  • 96 個の第 3 世代 AMD EPYC™ プロセッサ (ミラノ) の物理(≠スレッド)コア
  • 384 GB RAM
  • 最大 100 Gbps

という特徴を持ち、公式ブログによると、HPCワークロードに最適化されているだけでなく、「同等の x86 ベースのコンピューティング最適化インスタンスに比べて最大 65% 優れたコストパフォーマンス」を提供します。

HPC6aをHPC目的でなくコンピューティング最適化インスタンス(C系)の代替目的として評価するために、 Intelの第3世代 Intel Xeon Scalableを搭載した C6i 系インスタンスと簡易的なベンチマークをする機会があったので、結果を共有します。

ベンチマーク方法

今回は、Phoronix Test Suite を利用し、1インスタンスに閉じた CPU 系負荷をかけました。

テストケースには

  • pts/openssl
  • pts/compress-7zip
  • pts/stockfish

を利用しました。

クラスターを組んで HPC ワークロードのベンチマークを実施したい場合は、以下を参照ください。

インスタンスの比較

比較対象のインスタンスには、同じ第6世代 CPU 系の C6i ファミリーから

  • 最大スペックの C6i.32xlarge
  • 価格帯が近い C6i.16xlarge

を利用しました。

C6i.32xlarge は C6i.16xlarge の倍のスペックのため、理想と実測値のギャップを評価する上でも便利です。

インスタンスタイプ hpc6a.48xlarge c6i.32xlarge c6i.16xlarge
Memory 384 GiB 256 GiB 64 GiB
Network Performance 100 Gigabit 50 Gigabit 25 Gigabit
$/Hour 2.88 5.44 2.72
CPU(s) 96 128 64
Thread(s) per core 1 2 2
Core(s) per socke 48 32 32
Socket(s) 2 2 1
NUMA node(s) 4 2 1
Model name AMD EPYC 7R13 Processor Intel(R) Xeon(R) Platinum 8375C CPU @ 2.90GHz Intel(R) Xeon(R) Platinum 8375C CPU @ 2.90GHz
CPU MHz 2649.988 3423.102 2899.988
L1d cache 4 MiB 3 MiB 1.5 MiB
L1i cache 4 MiB 3 MiB 1 MiB
L2 cache 64 MiB 48 MiB 40 MiB
L3 cache 32 MiB 384 MiB 54 MiB

HPC6a インスタンスは、米国東部 (オハイオ) リージョンおよび GovCloud (米国西部) リージョンでのみ利用可能なため、今回はオハイオリージョンを利用しました。

オンデマンド利用費はオハイオのものです。

  • HPC6aC6i.32xlarge より47%安
  • HPC6aC6i.16xlarge より6%高

です。

OS

  • Ubuntu 20.04
  • 5.11.0-1022-aws (x86_64)

を利用しました。

ベンチマーク結果

OpenSSL

TLS/SSLライブラリ OpenSSL の openssl speed を用いたベンチマークです。 アルゴリズムは SHA256 です。

実行コマンド : $ phoronix-test-suite benchmark openssl

pts/openssl-3.0.1 [Algorithm: SHA256] hpc6a.48xlarge c6i.32xlarge c6i.16xlarge
byte/s 89864762563 55511959380 27172375527
byte/s/$ 31203042557 10204404298 9989843944
byte/s Ratio 1.6188 1.00 0.4895
byte/s/$ Ratio 3.0578 1.00 0.9790
Debiation(%) 0.12 0.28 0.28

byte/s はベンチマークスコア、 byte/s/$ はそのスコアをオンデマンド価格で割ったものです。

Ratio 版は c6i.32xlarge を100%としたものです。

c6i.32xlarge の結果を100%とすると、hpc6a.48xlarge は62%もよい結果が出ています。 16xlarge が 32xlarge の半分なのは、想定どおりです。

byte/s/$ Ratio から、hpc6a 系は c6i 系の3倍コスパが優れているとみなせます。

OpenBenchmarking.org のベンチマーク共有結果

Stockfish

Stockfish はOSSで最強のCPU系コンピュータチェスソフトです。 コンピュータ将棋界隈で発明された efficiently updatable neural network (NNUE) が取り込まれていることでも知られています。

局面の探索速度(Node Per Second)を計測しています。

実行コマンド : $ phoronix-test-suite benchmark stockfish

pts/stockfish-1.3.0 hpc6a.48xlarge c6i.32xlarge c6i.16xlarge
Nodes/Second 156005353 163045277 91088814
Nodes/Second/$ 54168525.35 29971558.27 33488534.56
Nodes/Second Ratio 0.9568 1.00 0.5587
Nodes/Second/$ Ratio 1.8073 1.00 1.1173
Debiation(%) 2.32 3.46 2.32

c6i.32xlarge と hpc6a のスコアがほぼ同じため、オンデマンド価格差がそのままプライスパフォーマンスにつながっています。 c6i.16xlargeは c6i.32xlargeのほぼ半分です。

OpenBenchmarking.org のベンチマーク共有結果

compress-7zip

7zip の圧縮・伸長を用いたベンチマークです。

実行コマンド : $ phoronix-test-suite benchmark compress-7zip

圧縮

Compression Rating hpc6a.48xlarge c6i.32xlarge c6i.16xlarge
MIPS 284160 316532 224312
MIPS/$ 98666.66667 58186.02941 82467.64706
MIPS Ratio 0.8977 1.00 0.7087
MIPS/$ Ratio 1.6957 1.00 1.4173
Debiation(%) 4.39 2.95 0.32

圧縮は hpc6a がc6i.32xlargeに比べ少し悪く、c6i.16xlargeが良い結果を残しています。

伸長

Decompression Rating hpc6a.48xlarge c6i.32xlarge c6i.16xlarge
MIPS 318910 320599 178649
MIPS/$ 110732.6389 58933.63971 65679.77941
MIPS Ratio 0.9947 1.00 0.5572
MIPS/$ Ratio 1.8789 1.00 1.1145
Debiation(%) 2.3 1.22 0.14

伸長は hpc6a とc6i.32xlargeが同程度、c6i.16xlargeがその半分という結果です。

OpenBenchmarking.org のベンチマーク共有結果

スポットインスタンスを利用するとC6iのほうが割安

Amazon EC2には、オンデマンド料金と比べて、お客様に大幅な値引きで利用可能なスポットインスタンスが存在します。

C6i.32xlarge の場合、オンデマンドが $5.44 のところ、AZ によっては最低価格が $1.2808 と 約1/4(23.5%) の価格で利用可能です。

一方で、現時点で HPC6a のスポットインスタンスは提供されていません。 C6i.32xlargeのスポット価格は HPC6a のオンデマンド価格($2.88)の約半分(44.4%)です。

オンデマンド利用という前提では HPC6aは C6iに比べてプライスパフォーマンスが優れていますが、 スポットインスタンスも考慮に入る場合、C6i のほうが優れています。

スポットインスタンスの在庫枯渇や処理中断といった固有の問題を考慮の上、スポットインスタンスもご検討ください。

最後に

Phoronix Test Suiteを使い、EC2のHPC6aとC6iでCPU系のベンチマークを3ケース、4本実施しました。

  • HPC6aC6i.32xlarge より47%も安いにもかかわらず、対 C6i.32xlarge で 162%, 100%, 96%, 90%と 同等のパフォーマンス
  • HPC6aC6i.16xlarge より6%だけ高いにも関わらず、対 C6i.16xlarge で 330%, 176%, 171%, 127%と 圧倒的なパフォーマンス

ということから、HPC6aはセールズピッチ通り、コストパフォーマンスが非常に優れていることが確認できました。

なお、HPC6aは

  • 米国東部 (オハイオ) リージョンおよび GovCloud (米国西部) リージョンでのみ利用可能なこと
  • 48xlarge 以外のサイズは提供されていないこと

にご注意ください。

それでは。