この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。
こんにちは、菊池です。
先日のre:Invent 2018で、100Gbpsネットワークに対応するGPUインスタンスである、P3dnが発表になりました。
そして本日、そのP3dnが利用可能になりました!
P3dnインスタンス
今回利用可能になったp3dn.24xlargeは、既存のp3.16xlargeの上位にあたり、以下のような特徴をもつインスタンスです。
- 100Gbpsのネットワーク
- 8つの NVIDIA TESLA v100 GPU(1つあたり32GB、トータル256GBのメモリ)
- 96vCPU
- 2TBのNVMeストレージ
インスタンスタイプ名のP3はインスタンスファミリー、24xlargeはサイズを表現しますが、「d」および「n」はオプション機能として以下に対応していることを示します。
- d:インスタンスストレージとしてNVMe SSDを利用可能
- n:最大100Gbpsの広帯域ネットワークに対応
今回のアップデートではバージニア、オレゴンの2つのリージョンで利用可能になりました。P3インスタンスのラインナップは以下のようになります。
インスタンスタイプ | GPU | GPUメモリ | vCPU | メモリ | ネットワーク | EBS帯域 | インスタンスストレージ | 利用料金 |
p3.2xlarge | Tesla v100 x1 | 16GB | 8 (Broadwell) | 61GB | 最大10Gbps | 1.5Gbps | N/A | $3.06 |
p3.8xlarge | Tesla v100 x4 | 64GB | 32 (Broadwell) | 244GB | 10Gbps | 7Gbps | N/A | $12.24 |
p3.16xlarge | Tesla v100 x8 | 128GB | 64 (Broadwell) | 488GB | 25Gbps | 14Gbps | N/A | $24.48 |
p3dn.24xlarge | Tesla v100 x8 | 256GB | 94 (Skylake) | 768GB | 100Gbps | 14Gbps | 2 x 900GB NVMe SSD | $31.212 |
料金は、バージニアリージョンのオンデマンド1時間単価です。
注目点として、同じP3世代でもp3dn.24xlargeはCPUがSkylake世代となっている点です。
起動してみた
実際に起動してみます。AMIはAmazon LinuxのDeep Learning AMIを選択しました。
まずはCPU情報。Intel(R) Xeon(R) Platinum 8175M CPU @ 2.50GHz です。
$ cat /proc/cpuinfo
processor : 0
vendor_id : GenuineIntel
cpu family : 6
model : 85
model name : Intel(R) Xeon(R) Platinum 8175M CPU @ 2.50GHz
stepping : 4
microcode : 0x2000049
cpu MHz : 3119.634
cache size : 33792 KB
physical id : 0
siblings : 48
core id : 0
cpu cores : 24
apicid : 0
initial apicid : 0
fpu : yes
fpu_exception : yes
cpuid level : 13
wp : yes
flags : fpu vme de pse tsc msr pae mce cx8 apic sep mtrr pge mca cmov pat pse36 clflush mmx fxsr sse sse2 ss h
t syscall nx pdpe1gb rdtscp lm constant_tsc rep_good nopl xtopology nonstop_tsc cpuid aperfmperf tsc_known_freq pni pclm
ulqdq ssse3 fma cx16 pcid sse4_1 sse4_2 x2apic movbe popcnt tsc_deadline_timer aes xsave avx f16c rdrand hypervisor lahf
_lm abm 3dnowprefetch invpcid_single pti fsgsbase tsc_adjust bmi1 hle avx2 smep bmi2 erms invpcid rtm mpx avx512f avx512
dq rdseed adx smap clflushopt clwb avx512cd avx512bw avx512vl xsaveopt xsavec xgetbv1 xsaves ida arat pku ospke
bugs : cpu_meltdown spectre_v1 spectre_v2 spec_store_bypass l1tf
bogomips : 5000.00
clflush size : 64
cache_alignment : 64
address sizes : 46 bits physical, 48 bits virtual
power management:
続いてメモリ。784103888 kBのメモリが利用可能です。
$ cat /proc/meminfo
MemTotal: 784103888 kB
MemFree: 782710240 kB
MemAvailable: 779734680 kB
Buffers: 23604 kB
Cached: 359060 kB
SwapCached: 0 kB
Active: 186964 kB
Inactive: 249152 kB
Active(anon): 53684 kB
Inactive(anon): 44 kB
Active(file): 133280 kB
Inactive(file): 249108 kB
Unevictable: 0 kB
Mlocked: 0 kB
SwapTotal: 0 kB
SwapFree: 0 kB
Dirty: 20 kB
Writeback: 0 kB
AnonPages: 54268 kB
Mapped: 86656 kB
Shmem: 64 kB
Slab: 163828 kB
SReclaimable: 53300 kB
SUnreclaim: 110528 kB
KernelStack: 16192 kB
PageTables: 3392 kB
NFS_Unstable: 0 kB
Bounce: 0 kB
WritebackTmp: 0 kB
CommitLimit: 392051944 kB
Committed_AS: 456968 kB
VmallocTotal: 34359738367 kB
VmallocUsed: 0 kB
VmallocChunk: 0 kB
AnonHugePages: 0 kB
ShmemHugePages: 0 kB
ShmemPmdMapped: 0 kB
HugePages_Total: 0
HugePages_Free: 0
HugePages_Rsvd: 0
HugePages_Surp: 0
Hugepagesize: 2048 kB
DirectMap4k: 374744 kB
DirectMap2M: 5654528 kB
DirectMap1G: 790626304 kB
そしてGPU。8つのデバイスが認識されています。
$ lspci | grep -i nvidia
00:16.0 3D controller: NVIDIA Corporation Device 1db5 (rev a1)
00:17.0 3D controller: NVIDIA Corporation Device 1db5 (rev a1)
00:18.0 3D controller: NVIDIA Corporation Device 1db5 (rev a1)
00:19.0 3D controller: NVIDIA Corporation Device 1db5 (rev a1)
00:1a.0 3D controller: NVIDIA Corporation Device 1db5 (rev a1)
00:1b.0 3D controller: NVIDIA Corporation Device 1db5 (rev a1)
00:1c.0 3D controller: NVIDIA Corporation Device 1db5 (rev a1)
00:1d.0 3D controller: NVIDIA Corporation Device 1db5 (rev a1)
Tesla V100です。
$ cat /proc/driver/nvidia/gpus/0000\:00\:16.0/information
Model: Tesla V100-SXM2-32GB
IRQ: 123
GPU UUID: GPU-3c646229-ada6-7506-ea66-d443d511b23b
Video BIOS: 88.00.43.00.03
Bus Type: PCIe
DMA Size: 47 bits
DMA Mask: 0x7fffffffffff
Bus Location: 0000:00:16.0
Device Minor: 0
$ nvidia-smi -l
Sat Dec 8 11:05:25 2018
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 396.44 Driver Version: 396.44 |
|-------------------------------+----------------------+----------------------+
| GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. |
|===============================+======================+======================|
| 0 Tesla V100-SXM2... On | 00000000:00:16.0 Off | 0 |
| N/A 40C P0 46W / 300W | 0MiB / 32510MiB | 0% Default |
+-------------------------------+----------------------+----------------------+
| 1 Tesla V100-SXM2... On | 00000000:00:17.0 Off | 0 |
| N/A 41C P0 44W / 300W | 0MiB / 32510MiB | 0% Default |
+-------------------------------+----------------------+----------------------+
| 2 Tesla V100-SXM2... On | 00000000:00:18.0 Off | 0 |
| N/A 39C P0 44W / 300W | 0MiB / 32510MiB | 0% Default |
+-------------------------------+----------------------+----------------------+
| 3 Tesla V100-SXM2... On | 00000000:00:19.0 Off | 0 |
| N/A 39C P0 45W / 300W | 0MiB / 32510MiB | 0% Default |
+-------------------------------+----------------------+----------------------+
| 4 Tesla V100-SXM2... On | 00000000:00:1A.0 Off | 0 |
| N/A 41C P0 45W / 300W | 0MiB / 32510MiB | 0% Default |
+-------------------------------+----------------------+----------------------+
| 5 Tesla V100-SXM2... On | 00000000:00:1B.0 Off | 0 |
| N/A 40C P0 45W / 300W | 0MiB / 32510MiB | 0% Default |
+-------------------------------+----------------------+----------------------+
| 6 Tesla V100-SXM2... On | 00000000:00:1C.0 Off | 0 |
| N/A 41C P0 44W / 300W | 0MiB / 32510MiB | 0% Default |
+-------------------------------+----------------------+----------------------+
| 7 Tesla V100-SXM2... On | 00000000:00:1D.0 Off | 0 |
| N/A 42C P0 49W / 300W | 0MiB / 32510MiB | 0% Default |
+-------------------------------+----------------------+----------------------+
ネットワークドライバはバージョン2.0.2gのENAです。
$ ethtool -i eth0
driver: ena
version: 2.0.2g
firmware-version:
bus-info: 0000:00:05.0
supports-statistics: yes
supports-test: no
supports-eeprom-access: no
supports-register-dump: no
supports-priv-flags: no
ストレージには2つのNVMe SSDインスタンスストレージがアタッチされています。
$ sudo nvme list
Node SN Model Version Namespace Usage Format FW Rev
---------------- -------------------- ---------------------------------------- -------- --------- -------------------------- ---------------- --------
/dev/nvme0n1 vol07430fd5df3461052 Amazon Elastic Block Store 1.0 1 0.00 B / 80.53 GB 512 B + 0 B 1.0
/dev/nvme1n1 AWS14AD78F1694AFA8DE Amazon EC2 NVMe Instance Storage 1.0 1 940.00 GB / 940.00 GB 512 B + 0 B 0
/dev/nvme2n1 AWS1DF42F61C3E7D2ACF Amazon EC2 NVMe Instance Storage 1.0 1 940.00 GB / 940.00 GB 512 B + 0 B 0
さいごに
re:Invent時点では発表のみだった、p3dn.24xlargeが早くも利用可能になりました。機械学習やHPCなどの用途として待っていた方も多いのではないでしょうか。