NVIDIA DGX-1

DGX-1 je vlajková loď společnosti NVIDIA. Představuje aktuálně nejvýkonnější hardware pro strojové učení a umělou inteligenci a kompletní softwarový stack včetně všech nejpoužívanějších prostředích (TensorFlow, Caffe, Torch, Theano, …) nasazených v Docker kontejnerech nebo aplikací pro datové analytiky. Jednoduše řečeno, jedná se o superpočítač pro umělou inteligenci v jediném boxu. DGX-1 patří vedle DGX-2 a DGX Station do rodiny NVIDIA DGX systémů.


DGX-1

Hardware

Pojďme se na NVIDIA DGX-1 stroje podívat podrobněji, nejprve z pohledu hardware.

ParametrDGX-1
GPUs8× NVIDIA Tesla V100 32GB
Výkon (GPU FP16)1 PetaFLOPS
GPU paměť256 GB celkem
CPU2× E5-2698 v4 2.2GHz (20 jader)
NVIDIA CUDA cores40 960
NVIDIA Tensor cores5 120
RAM512 GB
HDD4× 1,92TB SSD
Network2× 10GbE, 4× 100Gb EDR Infiniband
Maximální příkon3 200 W

Všechny NVIDIA DGX systémy jsou vybaveny nejnovějšími a zároveň nejrychlejšími akcelerátory současnosti — NVIDIA Tesla V100 32GB — DGX Station čtyřmi kartami, DGX-1 osmi kartami a DGX-2 dokonce šestnácti akcelerátory! Aby mohly akcelerátory mezi sebou rychle komunikovat, propojila je NVIDIA speciálními přepínači s obrovskou datovou propustností — tzv. NVSwitch. U Systému DGX-2 dosahuje díky těmto přepínačům celkové propustnosti 2.4 TB/s (bisection bandwidth).

Softwarová výbava

Co je ale mnohem zajímavější je již zmiňovaná softwarová výbava nabízených NVIDIA strojů. Všechny shodně nabízí předinstalovaná a především výkonově vyladěná prostředí pro strojové učení (např. Caffe, resp. Cafe 2, Theano, TensorFlow, Torch, nebo MXNet) nebo intuitivní prostředí pro datové analytiky (NVIDIA Digits). To vše elegantně zabalené v Docker kontejnerech. Takto vyladěné prostředí poskytuje podle NVIDIE o 30% vyšší výkon pro aplikace v oblasti učení strojů proti aplikacím nasazených jenom čistě na NVIDIA hardwaru. Hlavní výhodou předinstalovaného prostředí je rychlost nasazení, které se pohybuje v jednotkách hodin.

NVIDIA DGX systems SW stack

NVIDIA DGX systems SW stack

Podpora

Silnou stránkou nabízeného řešení NVIDIA je podpora celého systému. Hardwarová podpora (v případě selhání některé z komponent) je samozřejmostí. Zásadní je softwarová podpora pro celé prostředí pro případ, že něco nefunguje tak, jak má. Zákazník má k dispozici stovky vývojářů připravených pomoci. Podpora je součástí nákupu systémů NVIDIA DGX. Je k dispozici na 1 nebo 3 roky a po skončení této doby je možné ji dále prodloužit.

Díky kombinace vyladěného hardwaru, softwaru a NVIDIA podpory dosahují NVIDIA DGX systémy vyrazně vyššího výkonu a zrychlení učící fáze machine learning aplikací:

NVIDIA zrychlení

Zrychlení proti tradičnímu CPU výpočetnímu prostředí, GPU prostředí vs. NVIDIA DGX-1.

Rozdíl mezi odladěným řešením DGX systémů pro rychlé a výkonné nasazení strojového učení v praxi a variantou poskládejte si vše sami (DIY — Do It Yourself) je patrný z následujícího videa:

NVIDIA DGX-1 byl první DGX systém, který společnost NVIDIA představila jako svůj koncept superpočítače s vyladěným softwarových stackem pro prostředí pro práci s neuronovými sítěmi.