[アップデート] 100GネットワークのGPUインスタンス P3dnが利用可能になりました #reinvent
こんにちは、菊池です。
先日のre:Invent 2018で、100Gbpsネットワークに対応するGPUインスタンスである、P3dnが発表になりました。
そして本日、そのP3dnが利用可能になりました!
P3dnインスタンス
今回利用可能になったp3dn.24xlargeは、既存のp3.16xlargeの上位にあたり、以下のような特徴をもつインスタンスです。
- 100Gbpsのネットワーク
- 8つの NVIDIA TESLA v100 GPU(1つあたり32GB、トータル256GBのメモリ)
- 96vCPU
- 2TBのNVMeストレージ
インスタンスタイプ名のP3はインスタンスファミリー、24xlargeはサイズを表現しますが、「d」および「n」はオプション機能として以下に対応していることを示します。
- d:インスタンスストレージとしてNVMe SSDを利用可能
- n:最大100Gbpsの広帯域ネットワークに対応
今回のアップデートではバージニア、オレゴンの2つのリージョンで利用可能になりました。P3インスタンスのラインナップは以下のようになります。
インスタンスタイプ | GPU | GPUメモリ | vCPU | メモリ | ネットワーク | EBS帯域 | インスタンスストレージ | 利用料金 |
p3.2xlarge | Tesla v100 x1 | 16GB | 8 (Broadwell) | 61GB | 最大10Gbps | 1.5Gbps | N/A | $3.06 |
p3.8xlarge | Tesla v100 x4 | 64GB | 32 (Broadwell) | 244GB | 10Gbps | 7Gbps | N/A | $12.24 |
p3.16xlarge | Tesla v100 x8 | 128GB | 64 (Broadwell) | 488GB | 25Gbps | 14Gbps | N/A | $24.48 |
p3dn.24xlarge | Tesla v100 x8 | 256GB | 94 (Skylake) | 768GB | 100Gbps | 14Gbps | 2 x 900GB NVMe SSD | $31.212 |
料金は、バージニアリージョンのオンデマンド1時間単価です。
注目点として、同じP3世代でもp3dn.24xlargeはCPUがSkylake世代となっている点です。
起動してみた
実際に起動してみます。AMIはAmazon LinuxのDeep Learning AMIを選択しました。
まずはCPU情報。Intel(R) Xeon(R) Platinum 8175M CPU @ 2.50GHz です。
$ cat /proc/cpuinfo processor : 0 vendor_id : GenuineIntel cpu family : 6 model : 85 model name : Intel(R) Xeon(R) Platinum 8175M CPU @ 2.50GHz stepping : 4 microcode : 0x2000049 cpu MHz : 3119.634 cache size : 33792 KB physical id : 0 siblings : 48 core id : 0 cpu cores : 24 apicid : 0 initial apicid : 0 fpu : yes fpu_exception : yes cpuid level : 13 wp : yes flags : fpu vme de pse tsc msr pae mce cx8 apic sep mtrr pge mca cmov pat pse36 clflush mmx fxsr sse sse2 ss h t syscall nx pdpe1gb rdtscp lm constant_tsc rep_good nopl xtopology nonstop_tsc cpuid aperfmperf tsc_known_freq pni pclm ulqdq ssse3 fma cx16 pcid sse4_1 sse4_2 x2apic movbe popcnt tsc_deadline_timer aes xsave avx f16c rdrand hypervisor lahf _lm abm 3dnowprefetch invpcid_single pti fsgsbase tsc_adjust bmi1 hle avx2 smep bmi2 erms invpcid rtm mpx avx512f avx512 dq rdseed adx smap clflushopt clwb avx512cd avx512bw avx512vl xsaveopt xsavec xgetbv1 xsaves ida arat pku ospke bugs : cpu_meltdown spectre_v1 spectre_v2 spec_store_bypass l1tf bogomips : 5000.00 clflush size : 64 cache_alignment : 64 address sizes : 46 bits physical, 48 bits virtual power management:
続いてメモリ。784103888 kBのメモリが利用可能です。
$ cat /proc/meminfo MemTotal: 784103888 kB MemFree: 782710240 kB MemAvailable: 779734680 kB Buffers: 23604 kB Cached: 359060 kB SwapCached: 0 kB Active: 186964 kB Inactive: 249152 kB Active(anon): 53684 kB Inactive(anon): 44 kB Active(file): 133280 kB Inactive(file): 249108 kB Unevictable: 0 kB Mlocked: 0 kB SwapTotal: 0 kB SwapFree: 0 kB Dirty: 20 kB Writeback: 0 kB AnonPages: 54268 kB Mapped: 86656 kB Shmem: 64 kB Slab: 163828 kB SReclaimable: 53300 kB SUnreclaim: 110528 kB KernelStack: 16192 kB PageTables: 3392 kB NFS_Unstable: 0 kB Bounce: 0 kB WritebackTmp: 0 kB CommitLimit: 392051944 kB Committed_AS: 456968 kB VmallocTotal: 34359738367 kB VmallocUsed: 0 kB VmallocChunk: 0 kB AnonHugePages: 0 kB ShmemHugePages: 0 kB ShmemPmdMapped: 0 kB HugePages_Total: 0 HugePages_Free: 0 HugePages_Rsvd: 0 HugePages_Surp: 0 Hugepagesize: 2048 kB DirectMap4k: 374744 kB DirectMap2M: 5654528 kB DirectMap1G: 790626304 kB
そしてGPU。8つのデバイスが認識されています。
$ lspci | grep -i nvidia 00:16.0 3D controller: NVIDIA Corporation Device 1db5 (rev a1) 00:17.0 3D controller: NVIDIA Corporation Device 1db5 (rev a1) 00:18.0 3D controller: NVIDIA Corporation Device 1db5 (rev a1) 00:19.0 3D controller: NVIDIA Corporation Device 1db5 (rev a1) 00:1a.0 3D controller: NVIDIA Corporation Device 1db5 (rev a1) 00:1b.0 3D controller: NVIDIA Corporation Device 1db5 (rev a1) 00:1c.0 3D controller: NVIDIA Corporation Device 1db5 (rev a1) 00:1d.0 3D controller: NVIDIA Corporation Device 1db5 (rev a1)
Tesla V100です。
$ cat /proc/driver/nvidia/gpus/0000\:00\:16.0/information Model: Tesla V100-SXM2-32GB IRQ: 123 GPU UUID: GPU-3c646229-ada6-7506-ea66-d443d511b23b Video BIOS: 88.00.43.00.03 Bus Type: PCIe DMA Size: 47 bits DMA Mask: 0x7fffffffffff Bus Location: 0000:00:16.0 Device Minor: 0
$ nvidia-smi -l Sat Dec 8 11:05:25 2018 +-----------------------------------------------------------------------------+ | NVIDIA-SMI 396.44 Driver Version: 396.44 | |-------------------------------+----------------------+----------------------+ | GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC | | Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. | |===============================+======================+======================| | 0 Tesla V100-SXM2... On | 00000000:00:16.0 Off | 0 | | N/A 40C P0 46W / 300W | 0MiB / 32510MiB | 0% Default | +-------------------------------+----------------------+----------------------+ | 1 Tesla V100-SXM2... On | 00000000:00:17.0 Off | 0 | | N/A 41C P0 44W / 300W | 0MiB / 32510MiB | 0% Default | +-------------------------------+----------------------+----------------------+ | 2 Tesla V100-SXM2... On | 00000000:00:18.0 Off | 0 | | N/A 39C P0 44W / 300W | 0MiB / 32510MiB | 0% Default | +-------------------------------+----------------------+----------------------+ | 3 Tesla V100-SXM2... On | 00000000:00:19.0 Off | 0 | | N/A 39C P0 45W / 300W | 0MiB / 32510MiB | 0% Default | +-------------------------------+----------------------+----------------------+ | 4 Tesla V100-SXM2... On | 00000000:00:1A.0 Off | 0 | | N/A 41C P0 45W / 300W | 0MiB / 32510MiB | 0% Default | +-------------------------------+----------------------+----------------------+ | 5 Tesla V100-SXM2... On | 00000000:00:1B.0 Off | 0 | | N/A 40C P0 45W / 300W | 0MiB / 32510MiB | 0% Default | +-------------------------------+----------------------+----------------------+ | 6 Tesla V100-SXM2... On | 00000000:00:1C.0 Off | 0 | | N/A 41C P0 44W / 300W | 0MiB / 32510MiB | 0% Default | +-------------------------------+----------------------+----------------------+ | 7 Tesla V100-SXM2... On | 00000000:00:1D.0 Off | 0 | | N/A 42C P0 49W / 300W | 0MiB / 32510MiB | 0% Default | +-------------------------------+----------------------+----------------------+
ネットワークドライバはバージョン2.0.2gのENAです。
$ ethtool -i eth0 driver: ena version: 2.0.2g firmware-version: bus-info: 0000:00:05.0 supports-statistics: yes supports-test: no supports-eeprom-access: no supports-register-dump: no supports-priv-flags: no
ストレージには2つのNVMe SSDインスタンスストレージがアタッチされています。
$ sudo nvme list Node SN Model Version Namespace Usage Format FW Rev ---------------- -------------------- ---------------------------------------- -------- --------- -------------------------- ---------------- -------- /dev/nvme0n1 vol07430fd5df3461052 Amazon Elastic Block Store 1.0 1 0.00 B / 80.53 GB 512 B + 0 B 1.0 /dev/nvme1n1 AWS14AD78F1694AFA8DE Amazon EC2 NVMe Instance Storage 1.0 1 940.00 GB / 940.00 GB 512 B + 0 B 0 /dev/nvme2n1 AWS1DF42F61C3E7D2ACF Amazon EC2 NVMe Instance Storage 1.0 1 940.00 GB / 940.00 GB 512 B + 0 B 0
さいごに
re:Invent時点では発表のみだった、p3dn.24xlargeが早くも利用可能になりました。機械学習やHPCなどの用途として待っていた方も多いのではないでしょうか。