
NVIDIA A100
Nejnovější a zároveň nejvýkonnější NVIDIA karta pro HPC a AI určená pro datová centra.
NVIDIA Tesla V100
NVIDIA karta pro HPC a AI určená pro datová centra, předchůdce karty A100
NVIDIA Tesla T4
Karta s nejlepším poměrem výkon na spotřebu vhodná především pro aplikaci neuronových sítí.
NVIDIA DGX Systémy
Kompletní řešení serverů postavených na NVIDIA Enterprise kartách.
Porovnání NVIDIA GPU pro datová centra
Parametr | Tesla T4 | Tesla V100s | NVIDIA A40 | NVIDIA A100 PCIe** | NVIDIA A100 SXM4 | DGX Station A100 | DGX A100 |
---|---|---|---|---|---|---|---|
Architektura karty | Turing | Volta | Ampere | Ampere | Ampere | Ampere | Ampere |
Počet CUDA jader | 2 560 | 5 120 | 10 752 | 6 912 | 6 912 | 27 648 | 55 296 |
Počet Tensor jader | 320 | 640 | 336 | 432 | 432 | 1 728 | 3 456 |
FP64 (TFlops) | 0,25 | 8,2 | tbd | 9,7 | 9,7 | 38,8 | 77,6 |
FP64 Tensor (TFlops) | — | — | tbd | 19,5 | 19,5 | 78 | 156 |
FP32 (TFlops) | 8,1 | 16,4 | tbd | 19,5 | 19,5 | 78 | 156 |
TF32 Tensor (TFlops) | — | — | tbd | 312* | 312* | 1 248* | 2 496* |
FP16 Tensor (TFlops) | 65 | 130 | tbd | 624* | 624* | 2 496* | 4 992* |
INT8 Tensor (TOPS) | 130 | — | tbd | 1248* | 1248* | 4 992* | 9 994* |
INT4 Tensor (TOPS) | 260 | — | tbd | 2496* | 2496* | 9 992* | 19 968* |
GPU paměť | 16 GB | 32 GB | 48 GB | 40 GB | 40 GB / 80 GB | 160 / 320 GB | 320 / 640 GB |
Multi-instance GPU | 1 instance | 1 instance | vGPU mód | 7 instancí | 7 instancí | 28 instancí | 56 instancí |
Technologie paměti | GDDR6 | HBM2 | GDDR6 | HBM2 | HBM2 | HBM2 | HBM2 |
Propustnost pamětí | 300 GB/s | 1 134 GB/s | 696 GB/s | 1 ,5 TB/s | 1 ,5 / 2,0 TB/s | 1 ,5 / 2,0 TB/s | 1 ,5 / 2,0 TB/s |
Propojení GPU karet | Není | NVLink | NVLink | NVLink 3 | NVLink 3 | NVLink 3 | NVSwitch3, non-blocking, 4.8 TB/s |
Maximální příkon | 70 W | 250 W | 300 W | 250 W | 400 W | 1 500 W | 6,6 kW |
Provedení | PCIe karta | PCIe karta | PCIe karta | PCIe karta | SXM4 karta | tower, vodní chlazení CPU a GPU | rack, 6U |
Generace PCIe | PCIe gen3 | PCIe gen3 | PCIe gen4 | PCIe gen4 | PCI gen4 | PCIe gen4 | PCIe gen4 |
Rok uvedení na trh | 2018 | 2019 | 2020 | 2020 | 2020 | 2020 | 2020 |
Karta | Tesla T4 | Tesla V100s | NVIDIA A40 | NVIDIA A100 PCIe | NVIDIA A100 SXM4 | DGX Station A100 | DGX A100 |
* uvedený výkon je pro výpočty s řídkými maticemi (Sparcity), pro standardní výpočty je výkon poloviční oproti uvedeným hodnotám
** NVIDIA A100 PCIe dosahuje 90% uvedeného výpočetního výkonu
GPU pro datová centra
Grafické akcelerátory NVIDIA Tesla a Ampere jsou určené pro urychlení HPC aplikací nebo nasazení algoritmů umělé inteligence a hlubokého učení.
Mezi hlavní výhody NVIDIA karet patří specializovaná Tensor jádra pro machine learning aplikace nebo velká paměť (až 40 GB na každý akcelerátor), zabezpečená technologií ECC. Aby mohly akcelerátory mezi sebou rychle komunikovat, propojila je NVIDIA speciálním rozhraním s obrovskou datovou propustností — NVLink. NVLink dosahuje přenosové rychlosti až 600 GB/s. NVIDIA DGX A100 navíc nabízí super výkonný přepínač NVSwitch. Ten zajistí celkovou propustnost mezi osmii NVIDIA Ampere A100 kartami až 4,8 TB/s.
Z analýzy Intersect360 Research je patrné, že většina nejpoužívanějších HPC aplikací již NVIDIA karty podporuje. Patří mezi ně např. GROMACS, Ansys Fluent, Gaussian, VASP, NAMD, Abaqus, OpenFoam, LS Dyna, BLAST, Amber, Gamess, ParaView, NASTRAN a mnoho dalších. Velkému rozšíření NVIDIA akcelerátorů pomohla podpora deep learning frameworků — TensorFlow, Caffe, PyTorch, MXNET, Chainer, Keras a opět mnoha dalších.
Graf napravo názorně ukazuje, jak rychlý je vývoj na poli grafických akcelerátorů, kdy během pouhých čtyřech let došlo až k devítinásobnému nárůstu výkonnosti. Hodnoty vycházejí z průměru výsledků benchmarků nejpoužívanějších aplikací pro AI a HPC (Amber, Chroma, GROMACS, MILC, NAMD, PyTorch, Quantum Espresso, TensorFlow a VASP), které byly naměřeny na dousocketových serverech vždy se čtyřmi akcelerátory P100, V100 nebo A100.
Porovnání Nvidia karet pro vizualizaci
Parametr | GeForce RTX 2080Ti | RTX 3080 | RTX 3090 | Titan RTX | Quadro RTX 5000 | Quadro RTX 6000 / 8000 |
---|---|---|---|---|---|---|
Architektura | Turing | Ampere | Ampere | Turing | Turing | Turing |
# CUDA jader | 4 352 | 8704 | 10 496 | 4 608 | 3 072 | 4 608 |
# Tensor jader | 544 | 272 | 328 | 576 | 384 | 576 |
FP64 (TFlops) | 0,4 | 0,47 | 0,56 | 0,5 | 0,4 | 0,5 |
FP32 (TFlops) | 13,4 | 29,8 | 35.6 | 16,3 | 11,2 | 16,3 |
FP16 Tensor (TFlops) | 107,6 | 119 | 142 | 130 | 89,2 | 130 |
GPU paměť | 11 GB | 10 GB | 24 GB | 24 GB | 16 GB | 24 / 48 GB |
Paměti | GDDR6 | GDDR6X | GDDR6X | GDDR6 | GDDR6 | GDDR6 |
Propustnost pamětí | 616 GB / s | 760 GB / s | 936 GB / s | 672 GB / s | 448 GB / s | 624 GB / s |
ECC paměti | není | není | není | není | ECC | ECC |
Propojení karet | NVLink 2-way | PCIe gen4 | PCIe gen4 | NVLink 2-way | NVLink 2-way | NVLink 2-way |
Max. příkon | 250 W | 320 W | 350 W | 280 W | 265 W | 295 W |
Provedení | PCIe gen3 | PCIe gen4 | PCIe gen4 | PCIe gen3 | PCIe gen3 | PCIe gen3 |
Pro datacentra** | Ne | Ne | Ne | Ne | Ano | Ano |
Oznámení | 2018 | 2020 | 2020 | 2018 | 2018 | 2018 |
** podle Nvidia licenčních podmínek k ovladačům karet (EULA) nejsou grafické karty GeForce (GTX, RTX) určeny pro datová centra:
“No Datacenter Deployment. The SOFTWARE is not licensed for datacenter deployment, except that blockchain processing in a datacenter is permitted.”
zdroj: https://www.nvidia.com/content/DriverDownload-March2009/licence.php?lang=us&type=GeForce
NVIDIA nabízí na GPU i DGX systémy speciální cenové akce a programy pro konkrétní projekty a navíc podporuje instituce v oblasti vzdělávání (EDU) nebo start-upy.
Testování
Pro otestování výkonnosti a především rychlosti nasazení ML a AI aplikací máme k dispozici systém NVIDIA DGX Station a v rámci NVIDIA Test Drive programu také 4× A100, 2× Tesla V100 nebo Tesla T4 akcelerátory. V případě Vašeho zájmu o testování prosím vyplňte tento formulář.