Plataforma de inferencia de deep learning Software y aceleradores de inferencia en la nube, en centros de datos, en el perímetro y en máquinas autónomas
Libera todo el potencial de las GPU NVIDIA con NVIDIA TensorRT TensorRT es una plataforma de inferencia de alto rendimiento que es clave para desbloquear la potencia de las GPU NVIDIA Tensor Core. Ofrece un rendimiento hasta 40 veces mayor y minimiza la latencia en comparación con las plataformas solo de CPU. Con TensorRT puedes comenzar desde cualquier marco de trabajo y optimizar, validar e implementar rápidamente redes neuronales entrenadas en producción.
Simplifica la implementación con el servidor de inferencia NVIDIA Triton NVIDIA Triton Inference Server, anteriormente conocido como TensorRT Inference Server, es un software de código abierto que simplifica la implementación de modelos de aprendizaje profundo en producción. El servidor de inferencia de Triton permite a los equipos implementar modelos de IA entrenados desde cualquier marco (TensorFlow, PyTorch, TensorRT Plan, Caffe, MXNet o custom) desde el almacenamiento local, Google Cloud Platform o AWS S3 en cualquier infraestructura basada en GPU o CPU. Ejecuta varios modelos simultáneamente en una sola GPU para maximizar la utilización y se integra con Kubernetes para orquestación, métricas y escalado automático. MÁS INFORMACIÓN
Potencia unificada, inferencia de aprendizaje profundo escalable Con una arquitectura unificada, las redes neuronales en cada marco de aprendizaje profundo se pueden entrenar, optimizar con NVIDIA TensorRT y, a continuación, implementarse para la inferencia en tiempo real en la periferia. Con los sistema NVIDIA DGX™, las GPU NVIDIA Tensor Core, NVIDIA Jetson™ , y NVIDIA DRIVE™ , NVIDIA ofrece una plataforma de deep learning completa y totalmente escalable, tal como se muestra en el conjunto de pruebas de rendimiento de MLPerf
Ahorro de costes a gran escala Para mantener los servidores en el nivel máximo de productividad, los gestores de centros de datos deben hacer concesiones entre el rendimiento y la eficiencia. Un solo servidor NVIDIA Tesla T4 puede sustituir a varios servidores de CPU básicos para aplicaciones y servicios de inferencia de aprendizaje profundo, lo que reduce los requisitos de energía y supone un ahorro de costes de operación como de adquisición.