Гипермасштабируемая платформа для инференса NVIDIA TensorRT

Способствуя созданию сервисов на базе искусственного интеллекта нового поколения

Работа искуственного интеллекта осложняется постоянно растущим объемом данных при высоких требованиях к скорости предоставления результатов. Решите эту проблему с помощью GPU NVIDIA® Tesla® и NVIDIA TensorRT, самой быстрой и энергоэффективной в мире платформой для инференса в дата-центре. Решения Tesla поддерживают все задачи глубокого обучения и являются оптимальным решением для инференса, объединяя в себе максимальную производительность, энергоэффективность и широкие возможности для искусственного интеллекта. TensorRT раскрывает потенциал производительности GPU Tesla в различных приложениях, таких как системы для потоковой передачи видео, голосовые и рекомендательные системы, а также позволяет работать с SDK NVIDIA DeepStream.

РЕШЕНИЯ NVIDIA ДЛЯ ИНФЕРЕНСА В ДАТА-ЦЕНТРЕ

TESLA T4

GPU NVIDIA® T4 ускоряет различные задачи в облаке, в том числе высокопроизводительные вычисления, тренировку и инференс алгоритмов глубокого обучения, машинное обучение, анализ данных и работу с графикой. T4 создан на базе новой архитектуры NVIDIA Turing(™) и заключен в компактный форм-фактор PCIe с уровнем энергопотребления 70 Вт. Ускоритель оптимизирован для масштабируемых серверов и вычислительных сред. Кроме того, ускоритель оснащен тензорными ядрами Turing и новыми ядрами RT для операций с разной точностью. T4 обеспечивает революционную производительность, так как объединен с ускоренным контейнеризованным ПО из NVIDIA GPU Cloud.

deep-learning-ai-inference-platform-t4-background-2560-0912-ud

TESLA T4

GPU NVIDIA® Tesla® T4 – самый передовой в мире ускоритель инференса. Он оснащен тензорными ядрами NVIDIA Turing и обеспечивает революционную производительность инференса в операциях с разной точностью для ускорения различных приложений на базе современного искусственного интеллекта. T4 имеет компактный энергоэффективный форм-фактор PCIe с мощностью 75 Вт. Ускоритель оптимизирован для горизонтально-масштабируемых серверов и предназначен для осуществления инновационного инференса в реальном времени.

TESLA V100
для универсальных дата-центров

Tesla V100 обеспечивает в задачах инференса 125 Терафлопс производительности на GPU. Один сервер, оснащенный восемью ускорителями Tesla V100, может обеспечить быстродействие на уровне одного петафлопса.

TESLA P4
для ультраэнергоэффективных горизонтально-масштабируемых серверов

Tesla P4 предназначен для ускорения горизонтально-масштабируемых серверов и обеспечивает в 60 раз более высокую энергоэффективность по сравнению с CPU.

TESLA P40
для производительных серверов для задач инференса

Tesla P40 обеспечивает высочайшую производительность в задачах инференса и восьмиразрядных операциях (INT8) и имеет 24 ГБ встроенной памяти для наилучших пользовательских возможностей.

ПРОГРАММНОЕ ОБЕСПЕЧЕНИЕ ДЛЯ ВЫЧИСЛЕНИЙ В ДАТА-ЦЕНТРАХ NVIDIA

NVIDIA TensorRT

NVIDIA TensorRT – это высокопроизводительный ускоритель инференса нейронных сетей, который ускоряет приложения для машинного перевода и распознавания речи, а также рекомендательные системы до 100 раз по сравнению с CPU. TensorRT позволяет оптимизировать модели нейронных сетей, калибровать их для более высокой точности с минимальными погрешностями и разворачивать модели для формирования рабочей среды на предприятиях и в гипермасштабируемых дата-центрах.

Сервер для инференса NVIDIA Triton

Сервер для инференса NVIDIA Triton (прежнее название TensorRT) — это открытое программное обеспечение, которое упрощает развертывание моделей глубокого обучения в рабочей среде. Сервер для инференса Triton позволяет командам развертывать подготовленные модели ИИ из любого фреймворка (TensorFlow, PyTorch, TensorRT Plan, Caffe, MXNet или Custom) локального хранилища, платформы Google Cloud или AWS S3 на любой инфраструктуре на базе GPU или CPU. Сервер одновременно запускает несколько моделей на одном GPU, чтобы повысить утилизацию, и интегрируется с Kubernetes для оркестрации, управления параметрами и автоматического масштабирования.

Kubernetes на GPU NVIDIA

Kubernetes на GPU NVIDIA позволяет предприятиям легко увеличивать применение тренировки и инференса для мультиоблачных GPU-кластеров. С помощью движка Kubernetes можно мгновенно развернуть GPU-ускоренные приложения для глубокого обучения и НРС на мультиоблачных GPU-кластерах.

SDK DeepStream

NVIDIA DeepStream для Tesla – это SDK для построения масштабируемых приложений на основе глубокого обучения для анализа видео, предназначенных для «умных» городов и гипермасштабируемых дата-центров. Набор инструментов совмещает оптимизатор NVIDIA TensorRT и движки для инференса, SDK Video Codec для транскодирования,  а также API для предварительной обработки и выбора данных, позволяя в полной мере использовать мощность GPU Tesla. Например, на GPU Tesla P4 вы можете одновременно декодировать и анализировать до 30 видеопотоков в разрешении HD в реальном времени.

ВОЗМОЖНОСТИ И ПРЕИМУЩЕСТВА

Самая инновационная ИИ-платформа для инференса

Графический ускоритель Tesla T4 оснащен тензорными ядрами NVIDIA Turing и обеспечивает революционную производительность инференса в операциях FP32, FP16, INT8 и INT4. T4 обладает самой высокой производительностью инференса в мире и до 40 раз энергоэффективнее CPU, так как обеспечивает 130 тера-операций INT8 в секунду и 260 тера-операций INT4 в секунду. Tesla T4 может обрабатывать в реальном времени до 39 видеопотоков в разрешении HD, используя специализированные аппаратные движки с ускорением для кодирования видео. Разработчики могут предложить интеллектуальные сервисы нового поколения c применением инференса, предназначенные для поиска видео и других задач. А производительность на уровне 70 Вт делает Tesla T4 идеальным решением для инференса в масштабируемых серверах на конечных устройствах.

В 24 раз более высокая производительность для растущих рабочих нагрузок

Графические ускорители Tesla V100 на базе архитектуры NVIDIA Volta™ значительно повышают производительность алгоритмов глубокого обучения в дата-центрах и позволяют извлекать знания из современного цунами информации. Сервер, оснащенный одним графическим ускорителем Tesla V100, может заменить до 50 серверов на базе CPU в задачах инференса. Таким образом вы получаете большую производительность наряду со снижением общих затрат.

Максимизируйте производительность с помощью NVIDIA TensorRT и SDK DeepStream

Оптимизатор и движки для инференса NVIDIA TensorRT обеспечивают высокую производительность при минимальных задержках в приложениях для машинного перевода, распознавания речи и рекомендательных системах. С помощью TensorRT натренированные нейронные сети – обычно в форме 32-битных или 16-битных операций – могут быть оптимизированы до операций INT8 на Tesla P4 или FP16 на Tesla V100. SDK NVIDIA DeepStream использует возможности графических процессоров Tesla для одновременного декодирования и анализа видеопотоков.

Инференс, который максимизирует использование GPU и поддерживает все самые популярные фреймворки

Сервер для инференса NVIDIA Triton обеспечивает высокую производительность инференса в дата-центре и позволяет получить максимум возможностей GPU. Сервер для инференса NVIDIA TensorRT – это микросервис, который содержится в готовом контейнере. Он позволят осуществлять инференс через API для любого сочетания моделей из Caffe2, NVIDIA TensorRT, TensorFlow и других фреймворков, которые поддерживают стандарт ONNX хотя бы на одном GPU.

Спецификации производительности

Tesla T4 – самый продвинутый в мире ускоритель инференса Tesla V100 – универсальный ускоритель для дата-центров Tesla P4 для ультраэнергоэффективных горизонтально-масштабируемых серверов Tesla P40 для производительных серверов для задач инференса
Производительность операций одинарной точности (FP32) 8,1 Терафлопс 14 Терафлопс (PCIe),
15,7 Терафлопс (SXM2)
5,5 Терафлопс 12 Терафлопс
Производительность операций половинной точности (FP16) 65 Терафлопс 112 Терафлопс (PCIe),
125 Терафлопс (SXM2)
Производительность целочисленных операций (INT8) 130 тера-операций в секунду 22 тера-операций в секунду* 47 тера-операций в секунду*
Объем видеопамяти 16 ГБ 32/16 ГБ HBM2 8 ГБ 24 ГБ
Пропускная способность памяти 320 Гбит/с 900 Гбит/с 192 Гбит/с 346 Гбит/с
Системный интерфейс/Форм-фактор Низкопрофильный форм-фактор PCI Express Полноразмерный форм-фактор PCI Express, два слота SXM2 / NVLink Низкопрофильный форм-фактор PCI Express Полноразмерный форм-фактор PCI Express, два слота
Энергопотребление 70 Вт 250 Вт (PCIe)
300 Вт (SXM2)
50 -75 Вт 250 Вт
Аппаратно-ускоренный движок видеообработки 1 движок для декодирования, 2 движка для декодирования 1 движок для декодирования, 2 движка для кодирования 1 движок для декодирования, 2 движка для кодирования

*Тера-операций в секунду с тактовой частотой в режиме Boost

ПРИМЕРЫ ИЗ ПРАКТИКИ

Интеллектуальный и быстрый визуальный поиск

Bing использует технологию GPU NVIDIA, чтобы ускорять обнаружение объектов и находить актуальные результаты в режиме реального времени.

Обработка изображений и видео

Максимизируйте производительность в задачах обработки видео и изображений с помощью SDK NVIDIA DeepStream и GPU Tesla.

Рекомендательная система

Повышайте точность работы рекомендательных систем с помощью коллаборативной фильтрации на основе алгоритмов глубокого обучения на платформах GPU NVIDIA.

ОПТИМИЗИРУЙТЕ РЕШЕНИЕ ДЛЯ ИНФЕРЕНСА ГЛУБОКОГО ОБУЧЕНИЯ ПРЯМО СЕЙЧАС.

Tesla V100, P40 и T4 уже доступны в продаже.