Тензорные ядра поддерживают операции с различной точностью и динамически оптимизируют вычисления, чтобы повысить производительность, не меняя точности конечных результатов. Новое поколение тензорных ядер расширяет эти возможности для целого ряда нагрузок. Тензорные ядра NVIDIA обеспечивают новые возможности для любых нагрузок: ускорение тренировки алгоритмов ИИ в 10 раз с Tensor Float 32 (TF32) и высокопроизводительных вычислений в 2,5 раза с FP64.
Модели ИИ становятся все более сложными, так как разрабатываются для таких задач, как разговорный ИИ и рекомендательные системы на базе алгоритмов глубокого обучения. Модели для разговорного ИИ, например Megatron, в сотни раз больше и сложнее, чем модель классификации изображений ResNet-50. Тренировка таких моделей с FP32 может занять несколько дней или даже недель. Тензорные ядра в ускорителе NVIDIA значительно повышают производительность благодаря пониженной точности, например, TF32 и FP16. Прямая поддержка в нативных фреймворках через библиотеки NVIDIA CUDA-X™ ™ libraries, обеспечивает автоматическое внедрение пониженной точности, что позволяет добиваться сходимости значительно быстрее, сохраняя точность конечных результатов.
Тензорные ядра позволили NVIDIA поставить рекорд в MLPerf 0.6, первом отраслевом бенчмарке для обучения алгоритмов ИИ.
Эффективный ускоритель инференса ИИ должен отличаться не только отличной производительностью, но также универсальностью для работы с различными нейронными сетями и программируемостью — для создания новых. Низкая задержка при высокой пропускной способности и максимальная утилизация — вот важнейшие требования к производительности для эффективного инференса. Тензорные ядра NVIDIA позволяют выполнять операции различной точности: TF32, FP16, INT8 и INT4, обеспечивая исключительную универсальность и производительность.
Тензорные ядра позволили NVIDIA поставить рекорд в MLPerf 0.5, первом отраслевом бенчмарке для инференса ИИ
HPC — это фундамент современной науки. Моделирование помогает ученым совершать новые научные открытия: глубже изучать сложные молекулы для создания лекарств, физические процессы — для поиска потенциальных источников энергии и атмосферные данные — для разработки точных прогнозов и подготовки к экстремальным погодным условиям. Тензорные ядра NVIDIA поддерживают все операции, включая FP64, и ускоряют вычисления, сохраняя необходимую точность.
SDK NVIDIA для HPC— это набор основных компиляторов, библиотек и инструментов для разработки HPC-приложений для платформы NVIDIA.
Технология тензорных ядер NVIDIA значительно ускоряет инференс и позволяет натренировать алгоритмы ИИ за несколько часов, а не недель. Архитектура NVIDIA Ampere значительно повышает производительность и позволяет охватить весь спектр операций, необходимых для исследований: TF32, FP64, FP16, INT8 и INT4. Это позволяет ускорить и упростить внедрение ИИ и использовать существующие возможности тензорных ядер NVIDIA для HPC.
Наборы данных и модели ИИ увеличиваются в геометрической прогрессии, и, соответственно, растут требования к вычислительной мощности. Вычисления с пониженной точностью позволяют значительно повысить производительность, но требуют некоторых изменений в коде. Ускоритель A100 обеспечивает новую точность Tensor Float 32 (TF32), которая работает аналогично FP32 и до 20 раз ускоряет инференс ИИ, не требуя изменений в коде.
A100 brings the power of Tensor Cores to HPC, providing the biggest milestone since the introduction of double-precision GPU computing for HPC. By enabling matrix operations in FP64 precision, a whole range of HPC applications that need double-precision math can now get a 2.5X boost in performance and efficiency compared to prior generations of GPUs.
Ускоритель A100 с тензорными ядрами улучшает вычисления FP16 для глубокого обучения, повышая скорость в 2 раза по сравнению с архитектурой NVIDIA Volta™ для ИИ. Это значительно повышает производительность и ускоряет сходимость.
Поддержка операций INT8, впервые реализованная в архитектуре NVIDIA Turing™, значительно ускорила инференс. При развертывании приложений производительность архитектуры NVIDIA Ampere в операциях INT8 в 10 раз выше, чем у Volta. Это демонстрирует универсальность вычислительной платформы как для обработки больших объемов данных и задач в реальном времени, так и для различных дата-центров.
Архитектура NVIDIA Turing™ с тензорными ядрами обеспечивает вычисления с произвольной точностью для эффективного инференса ИИ. Тензорные ядра в архитектуре Turing поддерживают все операции FP32, FP16, INT8 и INT4 для тренировки и инференса глубокого обучения, демонстрируя огромный скачок производительности по сравнению с графическими ускорителями на базе NVIDIA Pascal™.
Предназначенные специально для задач глубокого обучения тензорные ядра первого поколения в архитектуре NVIDIA Volta™ обеспечивают высокую производительность для умножения матриц FP16 и FP32: повышают пиковые показатели Терафлопс для тренировки алгоритмов до 12 раз, а для инференса до 6 раз по сравнению с NVIDIA Pascal. Эта ключевая возможность позволяет Volta обеспечивать трехкратное ускорение производительности в задачах тренировки и инференса по сравнению с архитектурой предыдущего поколения Pascal.
Тензорные ядра — это основные элементы стека решений NVIDIA для дата-центра, который включает в себя программно-аппаратное обеспечение, сети, библиотеки и оптимизированные приложения и модели ИИ из NGC™. Самая производительная комплексная платформа для ИИ и HPC позволяет получать результаты в реальном времени и разворачивать решения на различных устройствах.
Присоединяйтесь к вебинару и узнайте, как достичь оптимальной производительности на GPU NVIDIA с тензорными ядрами.