NVIDIA DGX-2
DGX-2, zástupce rodiny NVIDIA DGX systémů, představuje aktuálně nejvýkonnější hardware pro strojové učení a umělou inteligenci a kompletní softwarový stack včetně všech nejpoužívanějších prostředích (TensorFlow, Caffe, Torch, Theano, …) nasazených v Docker kontejnerech nebo aplikací pro datové analytiky. Jednoduše řečeno, NVIDIA DGX-2 je superpočítač pro umělou inteligenci v jediném boxu o výkonu 2 PetaFLOPS! Nejnovějším přírůstkem do rodiny DGX systémů je DGX-2H — DGX-2, vyladěná pro dosažení nejvyššího výkonu.
Hardware
Pojďme se na systémy NVIDIA DGX-2 a DGX-2H podívat podrobněji, nejprve z pohledu hardwaru.
Parametr | DGX-2H | DGX-2 |
---|---|---|
GPUs | 16× NVIDIA Tesla V100 32GB | 16× NVIDIA Tesla V100 32GB |
Výkon (tensor operace) | 2 .1 PetaFLOPS | 2 PetaFLOPS |
GPU paměť | 512 GB celkem | 512 GB celkem |
CPU | 2× Platinum 8174, 3.1 GHz (24 jader) | 2× Platinum 8168, 2.7 GHz (24 jader) |
NVIDIA CUDA cores | 81 920 | 81 920 |
NVIDIA Tensor cores | 10 240 | 10 240 |
RAM | 1,5 TB | 1,5 TB |
HDD | 2× 960GB NVMe SSD, 8× 3.84TB NVMe SSD | 2× 960GB NVMe SSD, 8× 3.84TB NVMe SSD |
Network | 2× 10/25Gb Ethernet, 8× 100Gb Infiniband/Ethernet | 2× 10/25Gb Ethernet, 8× 100Gb Infiniband/Ethernet |
Maximální příkon | 12 kW | 10 kW |
Provedení | rack, 10U | rack, 10U |
Všechny NVIDIA DGX systémy jsou vybaveny nejnovějšími a zároveň nejrychlejšími akcelerátory současnosti — NVIDIA Tesla V100 32GB — DGX Station čtyřmi kartami, DGX-1 osmi kartami a DGX-2 dokonce šestnácti akcelerátory! Aby mohli akcelerátory mezi sebou rychle komunikovat, propojila je NVIDIA speciálními přepínači s obrovskou datovou propustností — tzv. NVSwitch. U Systému DGX-2 dosahuje díky těmto přepínačům celkové propustnosti 2.4 TB/s (bisection bandwidth).
Softwarová výbava
Co je ale mnohem zajímavější je již zmiňovaná softwarová výbava nabízených NVIDIA strojů. Všechny shodně nabízí předinstalovaná a především výkonově vyladěná prostředí pro strojové učení (např. Caffe, resp. Cafe 2, Theano, TensorFlow, Torch, nebo MXNet) nebo intuitivní prostředí pro datové analytiky (NVIDIA Digits). To vše elegantně zabalené v Docker kontejnerech, volně ke stažení na NVDIA GPU Cloudu (NGC). Takto vyladěné prostředí poskytuje podle NVIDIE o 30% vyšší výkon pro aplikace v oblasti učení strojů proti aplikacím nasazených jenom čistě na NVIDIA hardwaru. Hlavní výhodou předinstalovaného prostředí je rychlost nasazení, které se pohybuje v jednotkách hodin.

NVIDIA DGX systems SW stack
Podpora
Silnou stránkou nabízeného řešení NVIDIA je podpora celého systému. Hardwarová podpora (v případě selhání některé z komponent) je samozřejmostí. Zásadní je softwarová podpora pro celé prostředí pro případ, že něco nefunguje tak, jak má. Zákazník má k dispozici stovky vývojářů připravených pomoci. Podpora je součástí nákupu systémů NVIDIA DGX. Je k dispozici na 1 nebo 3 roky a po skončení této doby je možné ji dále prodloužit.
Díky kombinace vyladěného hardwaru, softwaru a NVIDIA podpory dosahují NVIDIA DGX systémy vyrazně vyššího výkonu a zrychlení učící fáze machine learning aplikací.
Rozdíl mezi odladěným řešením DGX systémů pro rychlé a výkonné nasazení strojového učení v praxi a variantou poskládejte si vše sami (DIY — Do It Yourself) je patrný z následujícího videa: