Plataforma de inferencia
de deep learning

Software y aceleradores de inferencia en la nube, en centros de datos, en el perímetro y en máquinas autónomas

NVIDIA gana un nuevo punto de referencia de inferencia de IA, ampliando el liderazgo de la IA

IA más rápida. Coste más bajo.

Existe un auge de la demanda de servicios cada vez más sofisticados habilitados para la IA, como el reconocimiento de imágenes y voz, el procesamiento de lenguaje natural, la búsqueda visual y las recomendaciones personalizadas. Al mismo tiempo, los conjuntos de datos crecen, las redes se vuelven más complejas y los requisitos de latencia se hacen más estrictos para satisfacer las expectativas de los usuarios.

La plataforma de inferencia de NVIDIA ofrece el rendimiento, la eficiencia y la capacidad de respuesta de la inferencia decisivos para impulsar la próxima generación de productos y servicios de IA: en la nube, en el centro de datos, en la primera línea y en las máquinas autónomas.

Regístrate para descargar el resumen técnico de inferencia
Simplifica la implementación con el servidor de inferencia NVIDIA Triton

Libera todo el potencial de las GPU NVIDIA con NVIDIA TensorRT

TensorRT es una plataforma de inferencia de alto rendimiento que es clave para desbloquear la potencia de las GPU NVIDIA Tensor Core. Ofrece un rendimiento hasta 40 veces mayor y minimiza la latencia en comparación con las plataformas solo de CPU. Con TensorRT puedes comenzar desde cualquier marco de trabajo y optimizar, validar e implementar rápidamente redes neuronales entrenadas en producción.

Simplifica la implementación con el servidor de inferencia NVIDIA Triton

NVIDIA Triton Inference Server, anteriormente conocido como TensorRT Inference Server, es un software de código abierto que simplifica la implementación de modelos de aprendizaje profundo en producción. El servidor de inferencia de Triton permite a los equipos implementar modelos de IA entrenados desde cualquier marco (TensorFlow, PyTorch, TensorRT Plan, Caffe, MXNet o custom) desde el almacenamiento local, Google Cloud Platform o AWS S3 en cualquier infraestructura basada en GPU o CPU. Ejecuta varios modelos simultáneamente en una sola GPU para maximizar la utilización y se integra con Kubernetes para orquestación, métricas y escalado automático.

Potencia unificada, inferencia de aprendizaje profundo escalable

Con una arquitectura unificada, las redes neuronales en cada marco de aprendizaje profundo se pueden entrenar, optimizar con NVIDIA TensorRT y, a continuación, implementarse para la inferencia en tiempo real en la periferia. Con los sistema NVIDIA DGX, las GPU NVIDIA Tensor Core, NVIDIA Jetson , y NVIDIA DRIVE , NVIDIA ofrece una plataforma de aprendizaje profundo de extremo a extremo, totalmente escalable.

Ahorro de costes a gran escala

Para mantener los servidores en el nivel máximo de productividad, los gestores de centros de datos deben hacer concesiones entre el rendimiento y la eficiencia. Un solo servidor NVIDIA Tesla T4 puede sustituir a varios servidores de CPU básicos para aplicaciones y servicios de inferencia de aprendizaje profundo, lo que reduce los requisitos de energía y supone un ahorro de costes de operación como de adquisición.

Soluciones de inferencia

Aprende a conseguir una IA más rápida

Observa el seminario web “Achieving Faster AI with NVIDIA GPUs and NVIDIA TensorRT” (Conseguir una IA más rápida con las GPU NVIDIA y NVIDIA TensorRT)