Элементы для продвинутого соединения GPU
Повышение требований к вычислениям в задачах ИИ и высокопроизводительных вычислений (HPC) обусловливает необходимость в системах с несколькими GPU и быстрым соединением между ними, которые выполняют роль огромного ускорителя. PCIe является стандартным решением, однако ограниченная пропускная способность часто становится узким местом. Чтобы создать мощную вычислительную платформу, необходима более быстрая и масштабируемая технология соединения.
NVIDIA® NVLink® — это высокоскоростная технология прямого соединения между GPU. NVIDIA NVSwitch™ обеспечивает соединение нового уровня, используя несколько NVLink для всесторонней связи GPU в одном узле с максимальной скоростью, например в NVIDIA HGX A100™. Комбинация NVLink и NVSwitch позволила NVIDIA эффективно повысить производительность ИИ и обеспечила рекорд в MLPerf 0.6, первом отраслевом бенчмарке для ИИ.
NVIDIA A100 PCIe с технологией внутреннего соединения NVLink
Соединение между GPU NVIDIA A100 и NVLink
График топологии NVSwitch для упрощения отображает соединение двух GPU. Таким же образом NVSwitch обеспечивает всестороннее соединение 8 или 16 GPU.
Технология NVIDIA NVLink решает эти проблемы, обеспечивая более высокую пропускную способность, большее число соединений и улучшенную масштабируемость для конфигураций с несколькими GPU. Один графический ускоритель NVIDIA A100 с тензорными ядрами поддерживает до 12 соединений NVLink третьего поколения с общей пропускной способностью 600 Гб/с, что в 10 раз превосходит показатели PCIe Gen 4.
В A100 число соединений NVLink увеличено с 6 до 12. Прямое соединение двух GPU повышает точность и ускоряет сходимость в задачах ИИ и HPC. Технология NVLink также доступна в конфигурациях A100 PCIe с двумя GPU.
Технология позволяет увеличить масштабируемость платформ, например NVIDIA DGX™, для ускорения тренировки моделей глубокого обучения.
NVLink в NVIDIA A100 удваивает скорость обмена данными между GPU по сравнению с решениями предыдущих поколений. Благодаря этому исследователи получают возможность использовать более современные приложения и решать более сложные задачи.
Быстрое внедрение алгоритмов глубокого обучение создало необходимость в более быстрой и масштабируемой технологии внутреннего соединения, так как пропускная способность PCIe все чаще становится узким местом систем с несколькими GPU. Для масштабирования задач глубокого обучения требуется значительно более высокая пропускная способность и низкая задержка.
Для решения этой проблемы NVIDIA NVSwitch использует расширенные возможности соединения NVLink. Матрица GPU повышает производительность глубокого обучения, позволяя использовать больше GPU на одном сервере и обеспечивая полноценное подключение. Каждый GPU оснащен 12 соединениями NVLink к NVSwitch, что обеспечивает высокоскоростную всестороннюю коммуникацию.
NVLink и NVSwitch — это основные элементы стека решений NVIDIA для дата-центров, который содержит программно-аппаратное обеспечение, сети, библиотеки, а также оптимизированные модели и приложения для ИИ из NGC™. Самая производительная комплексная платформа для ИИ и HPC позволяет получать результаты в реальном времени и разворачивать решения, обеспечивая масштабируемое ускорение.
NVSwitch — это первая архитектура, которая поддерживает полноценное подключение 16 GPU в одном серверном узле. NVSwitch второго поколения обеспечивает одновременную коммуникацию всех восьми пар GPU со скоростью 600 Гбит/с для каждой. Она поддерживает всестороннее соединение с прямой адресацией памяти одноранговых GPU. Эти 16 GPU можно использовать как один огромный ускоритель с унифицированной памятью и вычислительной производительностью до 5 петафлопс в задачах глубокого обучения.
Оцените NVIDIA DGX A100, универсальную систему для инфраструктуры ИИ и первую в мире систему с ИИ на базе GPU NVIDIA A100 с тензорными ядрами.