NVIDIA DGX-2

DGX-2, zástupce rodiny NVIDIA DGX systémů, představuje aktuálně nejvýkonnější hardware pro strojové učení a umělou inteligenci a kompletní softwarový stack včetně všech nejpoužívanějších prostředích (TensorFlow, Caffe, Torch, Theano, …) nasazených v Docker kontejnerech nebo aplikací pro datové analytiky. Jednoduše řečeno, NVIDIA DGX-2 je superpočítač pro umělou inteligenci v jediném boxu o výkonu 2 PetaFLOPS! Nejnovějším přírůstkem do rodiny DGX systémů je DGX-2H — DGX-2, vyladěná pro dosažení nejvyššího výkonu.


Hardware

Pojďme se na systémy NVIDIA DGX-2 a DGX-2H podívat podrobněji, nejprve z pohledu hardwaru.

ParametrDGX-2HDGX-2
GPUs16× NVIDIA Tesla V100 32GB16× NVIDIA Tesla V100 32GB
Výkon (tensor operace)2 .1 PetaFLOPS2 PetaFLOPS
GPU paměť512 GB celkem512 GB celkem
CPU2× Platinum 8174, 3.1 GHz (24 jader)2× Platinum 8168, 2.7 GHz (24 jader)
NVIDIA CUDA cores81 92081 920
NVIDIA Tensor cores10 24010 240
RAM1,5 TB1,5 TB
HDD2× 960GB NVMe SSD, 8× 3.84TB NVMe SSD2× 960GB NVMe SSD, 8× 3.84TB NVMe SSD
Network2× 10/25Gb Ethernet, 8× 100Gb Infiniband/Ethernet2× 10/25Gb Ethernet, 8× 100Gb Infiniband/Ethernet
Maximální příkon12 kW10 kW
Provedenírack, 10Urack, 10U

Všechny NVIDIA DGX systémy jsou vybaveny nejnovějšími a zároveň nejrychlejšími akcelerátory současnosti — NVIDIA Tesla V100 32GB — DGX Station čtyřmi kartami, DGX-1 osmi kartami a DGX-2 dokonce šestnácti akcelerátory! Aby mohli akcelerátory mezi sebou rychle komunikovat, propojila je NVIDIA speciálními přepínači s obrovskou datovou propustností — tzv. NVSwitch. U Systému DGX-2 dosahuje díky těmto přepínačům celkové propustnosti 2.4 TB/s (bisection bandwidth).

Softwarová výbava

Co je ale mnohem zajímavější je již zmiňovaná softwarová výbava nabízených NVIDIA strojů. Všechny shodně nabízí předinstalovaná a především výkonově vyladěná prostředí pro strojové učení (např. Caffe, resp. Cafe 2, Theano, TensorFlow, Torch, nebo MXNet) nebo intuitivní prostředí pro datové analytiky (NVIDIA Digits). To vše elegantně zabalené v Docker kontejnerech, volně ke stažení na NVDIA GPU Cloudu (NGC). Takto vyladěné prostředí poskytuje podle NVIDIE o 30% vyšší výkon pro aplikace v oblasti učení strojů proti aplikacím nasazených jenom čistě na NVIDIA hardwaru. Hlavní výhodou předinstalovaného prostředí je rychlost nasazení, které se pohybuje v jednotkách hodin.

NVIDIA DGX systems SW stack

NVIDIA DGX systems SW stack

Podpora

Silnou stránkou nabízeného řešení NVIDIA je podpora celého systému. Hardwarová podpora (v případě selhání některé z komponent) je samozřejmostí. Zásadní je softwarová podpora pro celé prostředí pro případ, že něco nefunguje tak, jak má. Zákazník má k dispozici stovky vývojářů připravených pomoci. Podpora je součástí nákupu systémů NVIDIA DGX. Je k dispozici na 1 nebo 3 roky a po skončení této doby je možné ji dále prodloužit.

Díky kombinace vyladěného hardwaru, softwaru a NVIDIA podpory dosahují NVIDIA DGX systémy vyrazně vyššího výkonu a zrychlení učící fáze machine learning aplikací.

Rozdíl mezi odladěným řešením DGX systémů pro rychlé a výkonné nasazení strojového učení v praxi a variantou poskládejte si vše sami (DIY — Do It Yourself) je patrný z následujícího videa: