Упрощенное развертывание моделей

Используйте сервер для инференса NVIDIA Triton для простого развертывания моделей ИИ с несколькими фреймворками.

Системная архитектура End-to-End

Сервер для инференса NVIDIA Triton упрощает развертывание моделей ИИ на предприятиях. Triton — это открытое программное обеспечение для инференса, которое позволяет развертывать обученные модели ИИ из разных фреймворков, локального хранилища, платформы Google Cloud или AWS S3 на любой инфраструктуре на базе GPU или CPU, в облаке, дата-центре или периферийных устройствах. Начать работу с Triton можно путем извлечения контейнера из каталога NVIDIA NGC, реестра ПО, оптимизированного для GPU, для глубокого и машинного обучения, который ускоряет разработку и развертывание.

Преимущества сервера для инференса Triton

Поддержка нескольких фреймворков

Сервер для инференса Triton поддерживает все основные фреймворки, такие как TensorFlow, NVIDIA® TensorRT, PyTorch, ONNX Runtime, а также пользовательские бэкенд-фреймворки. Он предоставляет исследователям в области ИИ и специалистам по обработке данных возможность выбора подходящего фреймворка для их проекта.

Высокопроизводительный инференс

Сервер одновременно запускает несколько моделей на одном GPU, чтобы повысить утилизацию, поддерживает инференс на CPU и продвинутые функции, такие как ансамбль моделей и инференс в реальном времени. Это помогает разработчикам быстро запускать модели в производство.

Разработан для DevOps и MLOps

Сервер доступен в качестве контейнера Docker, интегрируется с Kubernetes для оркестрации и масштабирования, является частью Kubeflow и экспортирует метрики Prometheus для мониторинга. Все это помогает IT и DevOps упрощать внедрение моделей в производство.

Конвейер для инференса

Упрощенное развертывание моделей

Сервер для инференса NVIDIA Triton упрощает развертывание моделей ИИ для глубокого обучения в производстве на любой инфраструктуре на базе GPU или CPU. Он поддерживает все основные фреймворки, одновременно запускает несколько моделей для увеличения производительности и утилизации, а также интегрируется с инструментами DevOps для оптимизации производства.

Все эти возможности позволяют объединить усилия специалистов по анализу данных, разработчиков и ИТ-операторов для ускорения разработки и внедрения ИИ в производство.

Разработан для масштабируемости

Сервер NVIDIA Triton обеспечивает масштабируемость дата-центра и облака с помощью инференса на основе микросервисов. Он может быть развернут в качестве контейнерного микросервиса для моделей на стадиях предварительной обработки и постобработки и глубокого обучения на GPU и CPU. Каждый инстанс Triton может быть масштабирован отдельно в среде, подобной Kubernetes, для оптимальной производительности. Команда Helm из NGC развертывает Triton в Kubernetes

С помощью Triton можно разворачивать модели в облаке, в локальных дата-центрах или периферийных устройствах.

Конвейер для инференса

Начать работу с сервером для инференса NVIDIA Triton на NGC.