Модели ИИ становятся все более сложными, так как предназначены для таких задач нового уровня, как, например, разговорный ИИ. Для их обучения необходима значительная вычислительная мощность и масштабируемость.
Тензорные ядра в NVIDIA A100 с поддержкой Tensor Float (TF32) повышают производительность в 20 раз по сравнению с NVIDIA Volta, не требуя изменений в коде, и в 2 раза ускоряют автоматическую функцию работы с различной точностью и FP16. При объединении с NVIDIA® NVLink®, NVIDIA NVSwitch™, PCI Gen4, NVIDIA® Mellanox® InfiniBand®, и SDK NVIDIA Magnum IO™ ускоритель на базе A100 можно масштабировать в тысячи раз.
Тренировочная нагрузка, такая как алгоритм BERT, может быть обработана менее чем за минуту с помощью 2048 GPU A100, что является мировым рекордом.
A100 80 ГБ располагает 1,3 ТБ объединенной памяти на узел и увеличивает пропускную способность до 3 раз, по сравнению с A100 40 ГБ, для самых больших моделей с массивными таблицами данных, например, для моделей рекомендательных системы на основе глубокого изучения (DLRM).
NVIDIA установила несколько рекордов производительности в отраслевом бенчмарке для обучения модели ИИ MLPerf.