[アップデート] 100GネットワークのGPUインスタンス P3dnが利用可能になりました #reinvent

こんにちは、菊池です。

先日のre:Invent 2018で、100Gbpsネットワークに対応するGPUインスタンスである、P3dnが発表になりました。

[新発表] 100GネットワークのGPUインスタンス!P3dnが発表されました #reinvent

そして本日、そのP3dnが利用可能になりました!

P3dnインスタンス

今回利用可能になったp3dn.24xlargeは、既存のp3.16xlargeの上位にあたり、以下のような特徴をもつインスタンスです。

  • 100Gbpsのネットワーク
  • 8つの NVIDIA TESLA v100 GPU(1つあたり32GB、トータル256GBのメモリ)
  • 96vCPU
  • 2TBのNVMeストレージ

インスタンスタイプ名のP3はインスタンスファミリー、24xlargeはサイズを表現しますが、「d」および「n」はオプション機能として以下に対応していることを示します。

  • d:インスタンスストレージとしてNVMe SSDを利用可能
  • n:最大100Gbpsの広帯域ネットワークに対応

今回のアップデートではバージニア、オレゴンの2つのリージョンで利用可能になりました。P3インスタンスのラインナップは以下のようになります。

インスタンスタイプ GPU GPUメモリ vCPU メモリ ネットワーク EBS帯域 インスタンスストレージ 利用料金
p3.2xlarge Tesla v100 x1 16GB 8 (Broadwell) 61GB 最大10Gbps 1.5Gbps N/A $3.06
p3.8xlarge Tesla v100 x4 64GB 32 (Broadwell) 244GB 10Gbps 7Gbps N/A $12.24
p3.16xlarge Tesla v100 x8 128GB 64 (Broadwell) 488GB 25Gbps 14Gbps N/A $24.48
p3dn.24xlarge Tesla v100 x8 256GB 94 (Skylake) 768GB 100Gbps 14Gbps 2 x 900GB NVMe SSD $31.212

料金は、バージニアリージョンのオンデマンド1時間単価です。

注目点として、同じP3世代でもp3dn.24xlargeはCPUがSkylake世代となっている点です。

起動してみた

実際に起動してみます。AMIはAmazon LinuxのDeep Learning AMIを選択しました。

まずはCPU情報。Intel(R) Xeon(R) Platinum 8175M CPU @ 2.50GHz です。

$ cat /proc/cpuinfo
processor	: 0
vendor_id	: GenuineIntel
cpu family	: 6
model		: 85
model name	: Intel(R) Xeon(R) Platinum 8175M CPU @ 2.50GHz
stepping	: 4
microcode	: 0x2000049
cpu MHz		: 3119.634
cache size	: 33792 KB
physical id	: 0
siblings	: 48
core id		: 0
cpu cores	: 24
apicid		: 0
initial apicid	: 0
fpu		: yes
fpu_exception	: yes
cpuid level	: 13
wp		: yes
flags		: fpu vme de pse tsc msr pae mce cx8 apic sep mtrr pge mca cmov pat pse36 clflush mmx fxsr sse sse2 ss h
t syscall nx pdpe1gb rdtscp lm constant_tsc rep_good nopl xtopology nonstop_tsc cpuid aperfmperf tsc_known_freq pni pclm
ulqdq ssse3 fma cx16 pcid sse4_1 sse4_2 x2apic movbe popcnt tsc_deadline_timer aes xsave avx f16c rdrand hypervisor lahf
_lm abm 3dnowprefetch invpcid_single pti fsgsbase tsc_adjust bmi1 hle avx2 smep bmi2 erms invpcid rtm mpx avx512f avx512
dq rdseed adx smap clflushopt clwb avx512cd avx512bw avx512vl xsaveopt xsavec xgetbv1 xsaves ida arat pku ospke
bugs		: cpu_meltdown spectre_v1 spectre_v2 spec_store_bypass l1tf
bogomips	: 5000.00
clflush size	: 64
cache_alignment	: 64
address sizes	: 46 bits physical, 48 bits virtual
power management:

続いてメモリ。784103888 kBのメモリが利用可能です。

$ cat /proc/meminfo
MemTotal:       784103888 kB
MemFree:        782710240 kB
MemAvailable:   779734680 kB
Buffers:           23604 kB
Cached:           359060 kB
SwapCached:            0 kB
Active:           186964 kB
Inactive:         249152 kB
Active(anon):      53684 kB
Inactive(anon):       44 kB
Active(file):     133280 kB
Inactive(file):   249108 kB
Unevictable:           0 kB
Mlocked:               0 kB
SwapTotal:             0 kB
SwapFree:              0 kB
Dirty:                20 kB
Writeback:             0 kB
AnonPages:         54268 kB
Mapped:            86656 kB
Shmem:                64 kB
Slab:             163828 kB
SReclaimable:      53300 kB
SUnreclaim:       110528 kB
KernelStack:       16192 kB
PageTables:         3392 kB
NFS_Unstable:          0 kB
Bounce:                0 kB
WritebackTmp:          0 kB
CommitLimit:    392051944 kB
Committed_AS:     456968 kB
VmallocTotal:   34359738367 kB
VmallocUsed:           0 kB
VmallocChunk:          0 kB
AnonHugePages:         0 kB
ShmemHugePages:        0 kB
ShmemPmdMapped:        0 kB
HugePages_Total:       0
HugePages_Free:        0
HugePages_Rsvd:        0
HugePages_Surp:        0
Hugepagesize:       2048 kB
DirectMap4k:      374744 kB
DirectMap2M:     5654528 kB
DirectMap1G:    790626304 kB

そしてGPU。8つのデバイスが認識されています。

$ lspci | grep -i nvidia
00:16.0 3D controller: NVIDIA Corporation Device 1db5 (rev a1)
00:17.0 3D controller: NVIDIA Corporation Device 1db5 (rev a1)
00:18.0 3D controller: NVIDIA Corporation Device 1db5 (rev a1)
00:19.0 3D controller: NVIDIA Corporation Device 1db5 (rev a1)
00:1a.0 3D controller: NVIDIA Corporation Device 1db5 (rev a1)
00:1b.0 3D controller: NVIDIA Corporation Device 1db5 (rev a1)
00:1c.0 3D controller: NVIDIA Corporation Device 1db5 (rev a1)
00:1d.0 3D controller: NVIDIA Corporation Device 1db5 (rev a1)

Tesla V100です。

$ cat /proc/driver/nvidia/gpus/0000\:00\:16.0/information
Model: 		 Tesla V100-SXM2-32GB
IRQ:   		 123
GPU UUID: 	 GPU-3c646229-ada6-7506-ea66-d443d511b23b
Video BIOS: 	 88.00.43.00.03
Bus Type: 	 PCIe
DMA Size: 	 47 bits
DMA Mask: 	 0x7fffffffffff
Bus Location: 	 0000:00:16.0
Device Minor: 	 0
$ nvidia-smi -l
Sat Dec  8 11:05:25 2018
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 396.44                 Driver Version: 396.44                    |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|===============================+======================+======================|
|   0  Tesla V100-SXM2...  On   | 00000000:00:16.0 Off |                    0 |
| N/A   40C    P0    46W / 300W |      0MiB / 32510MiB |      0%      Default |
+-------------------------------+----------------------+----------------------+
|   1  Tesla V100-SXM2...  On   | 00000000:00:17.0 Off |                    0 |
| N/A   41C    P0    44W / 300W |      0MiB / 32510MiB |      0%      Default |
+-------------------------------+----------------------+----------------------+
|   2  Tesla V100-SXM2...  On   | 00000000:00:18.0 Off |                    0 |
| N/A   39C    P0    44W / 300W |      0MiB / 32510MiB |      0%      Default |
+-------------------------------+----------------------+----------------------+
|   3  Tesla V100-SXM2...  On   | 00000000:00:19.0 Off |                    0 |
| N/A   39C    P0    45W / 300W |      0MiB / 32510MiB |      0%      Default |
+-------------------------------+----------------------+----------------------+
|   4  Tesla V100-SXM2...  On   | 00000000:00:1A.0 Off |                    0 |
| N/A   41C    P0    45W / 300W |      0MiB / 32510MiB |      0%      Default |
+-------------------------------+----------------------+----------------------+
|   5  Tesla V100-SXM2...  On   | 00000000:00:1B.0 Off |                    0 |
| N/A   40C    P0    45W / 300W |      0MiB / 32510MiB |      0%      Default |
+-------------------------------+----------------------+----------------------+
|   6  Tesla V100-SXM2...  On   | 00000000:00:1C.0 Off |                    0 |
| N/A   41C    P0    44W / 300W |      0MiB / 32510MiB |      0%      Default |
+-------------------------------+----------------------+----------------------+
|   7  Tesla V100-SXM2...  On   | 00000000:00:1D.0 Off |                    0 |
| N/A   42C    P0    49W / 300W |      0MiB / 32510MiB |      0%      Default |
+-------------------------------+----------------------+----------------------+

ネットワークドライバはバージョン2.0.2gのENAです。

$ ethtool -i eth0
driver: ena
version: 2.0.2g
firmware-version:
bus-info: 0000:00:05.0
supports-statistics: yes
supports-test: no
supports-eeprom-access: no
supports-register-dump: no
supports-priv-flags: no

ストレージには2つのNVMe SSDインスタンスストレージがアタッチされています。

$ sudo nvme list
Node             SN                   Model                                    Version  Namespace Usage                      Format           FW Rev
---------------- -------------------- ---------------------------------------- -------- --------- -------------------------- ---------------- --------
/dev/nvme0n1     vol07430fd5df3461052 Amazon Elastic Block Store               1.0      1           0.00   B /  80.53  GB    512   B +  0 B   1.0
/dev/nvme1n1     AWS14AD78F1694AFA8DE Amazon EC2 NVMe Instance Storage         1.0      1         940.00  GB / 940.00  GB    512   B +  0 B   0
/dev/nvme2n1     AWS1DF42F61C3E7D2ACF Amazon EC2 NVMe Instance Storage         1.0      1         940.00  GB / 940.00  GB    512   B +  0 B   0

さいごに

re:Invent時点では発表のみだった、p3dn.24xlargeが早くも利用可能になりました。機械学習やHPCなどの用途として待っていた方も多いのではないでしょうか。