PLATAFORMA DE INFERENCIA A GRAN ESCALA NVIDIA TENSORRT

Potenciando los servicios con IA de la próxima generación

Los servicios basados en IA utilizan volúmenes ingentes de datos y necesitan aportar respuestas muy rápidas. Afronta los desafíos sin rodeos con las GPU NVIDIA® Tesla® y la plataforma NVIDIA TensorRT, la Plataforma de Inferencia de centro de datos más rápida y eficiente del mundo. La GPU Tesla es compatible con todas las cargas de trabajo de deep learning y proporciona la solución de inferencia óptima: la combinación del rendimiento más alto, la mejor eficiencia y la mejor flexibilidad para impulsar las experiencias basadas en IA. La plataforma TensorRT desbloquea el rendimiento de las GPU Tesla en una variedad de aplicaciones, como la transmisión de vídeo, el reconocimiento de voz y los sistemas de recomendación, y proporciona la base para el SDK de NVIDIA DeepStream.

PRODUCTOS DE INFERENCIA DEL NVIDIA DATA CENTER

TESLA T4

La GPU NVIDIA® T4 acelera distintas cargas de trabajo en la nube, como la computación de alto rendimiento, el entrenamiento y la inferencia de deep learning, el aprendizaje automático, el análisis de datos y los gráficos. Partiendo de la nueva arquitectura Turing(™) de NVIDIA y fabricada con un factor de forma PCIe de pequeño tamaño y consumo eficiente con sus 70 vatios, la T4 está optimizada para servidores multinodo y entornos de computación multinodo. Además, incluye núcleos Tensor de Turing de multiprecisión y nuevos núcleos RT, que, al combinarse con pilas de software aceleradas en contenedores de Computación en la nube con GPU de NVIDIA, la T4 ofrece un rendimiento revolucionario a escala.

deep-learning-ai-inference-platform-t4-background-2560-0912-ud

TESLA T4

The NVIDIA® Tesla® T4 GPU is the world’s most advanced inference accelerator. Powered by NVIDIA Turing Tensor Cores, T4 brings revolutionary multi-precision inference performance to accelerate the diverse applications of modern AI. Packaged in an energy-efficient 75-watt, small PCIe form factor, T4 is optimized for scale-out servers and is purpose-built to deliver state-of-the-art inference in real time.

TESLA V100
Para centros de datos universales

Tesla V100 desarrolla 125 teraflops de rendimiento de inferencia por GPU. Un solo servidor con ocho tarjetas Tesla V100 puede generar un petaflop de computación.

TESLA P4
Para servidores multinodo de gran eficiencia

El sistema Tesla P4 acelera cualquier servidor multinodo y ofrece una eficiencia energética 60 veces superior a la de los sistemas basados en CPU.

TESLA P40
Para servidores con velocidad de transmisión para inferencia

Tesla P40 ofrece un gran rendimiento de inferencia, precisión INT8 y 24 GB de memoria integrada que se traducen en una extraordinaria experiencia de usuario.

SOFTWARE DE COMPUTACIÓN DEL NVIDIA DATA CENTER

NVIDIA TensorRT

NVIDIA TensorRT es una Plataforma de Inferencia de redes neuronales de alto rendimiento que puede acelerar aplicaciones como sistemas de recomendación, reconocimiento de voz y traducción automática hasta 40 veces en comparación con las arquitecturas de CPU. TensorRT optimiza modelos de redes neuronales, calibra la baja exactitud con gran precisión e implementa los modelos en entornos de producción en empresas y centros de datos a gran escala.

Servidor de inferencia NVIDIA Triton

Servidor de inferencia NVIDIA Triton, anteriormente conocido como servidor de inferencia TensorRT, es un software de código abierto que simplifica la implementación de modelos de aprendizaje profundo en producción. El servidor de inferencia de Triton permite a los equipos implementar modelos de IA entrenados desde cualquier entorno (TensorFlow, PyTorch, TensorRT Plan, Caffe, MXNet o custom) desde el almacenamiento local, Google Cloud Platform o AWS S3 en cualquier infraestructura basada en GPU o CPU. Ejecuta varios modelos simultáneamente en una sola GPU para maximizar la utilización y se integra con Kubernetes para orquestación, métricas y escalado automático.

Kubernetes en GPU NVIDIA

Kubernetes en GPU NVIDIA permite que las empresas escalen la implementación de entrenamiento e inferencia en clústeres GPU multinube sin problemas. Con Kubernetes, el deep learning acelerado por GPU y las aplicaciones de computación de alto rendimiento (HPC) pueden ser implementados en clústeres GPU multinube al instante.

SDK de DeepStream

NVIDIA DeepStream para Tesla es un SDK para compilar aplicaciones de análisis de vídeo inteligente (IVA) escalables basadas en deep learning para ciudades inteligentes y centros de datos a gran escala. Une el optimizador y los motores de ejecución de NVIDIA TensorRT para la inferencia, el SDK de Video Codec para la transcodificación y preprocesado, y las API de organización de datos para aprovechar la potencia de las GPU Tesla. Por ejemplo, con las GPU Tesla P4 puedes decodificar y analizar hasta 30 transmisiones de vídeo en HD de forma simultánea y en tiempo real.

CARACTERÍSTICAS Y VENTAJAS

La Plataforma de Inferencia de IA más avanzada

Tesla T4 con la tecnología Tensor Cores de NVIDIA Turing ofrece un rendimiento nunca visto para formación de deep learning con precisiones para inferencia FP32, FP16, INT8 e INT4. Con 130 TeraOPS (TOPS) de INT8 y 260 TOPS de INT4, T4 cuenta con la mayor eficacia de inferencia del mundo, hasta 40 veces superior a la de las CPU. Tesla T4 puede analizar hasta 39 flujos de vídeo en HD de forma simultánea y en tiempo real utilizando motores de transcodificación de vídeo dedicados acelerados por hardware. Los desarrolladores pueden ofrecer nuevos niveles de funcionalidad inteligente e innovadora utilizando una inferencia que facilita la búsqueda de vídeos y otros servicios relacionados. Lograr este gran rendimiento con solo 70 W convierte a Tesla T4 en la solución de inferencia perfecta para servidores en gran escala de vanguardia.

Velocidad 24 veces mayor para soportar crecientes cargas de trabajo

Las GPU Tesla V100 con la tecnología de NVIDIA Volta™ aportan a los centros de datos un impresionante aumento de velocidad para que las cargas de trabajo de deep learning extraigan información útil del tsunami de datos del mundo actual. Un servidor con una única Tesla V100 puede sustituir hasta 50 servidores basados exclusivamente en CPU para cargas de trabajo de inferencia de deep learning, lo que le ofrece mucha mayor velocidad y un coste de adquisición más reducido.

Maximiza tu rendimiento con NVIDIA TensorRT y DeepStream SDK

El optimizador y los motores de ejecución de NVIDIA TensorRT ofrecen una alta velocidad con bajos tiempos de espera para aplicaciones como sistemas de recomendación, reconocimiento de voz y traducción automática. Con TensorRT, los modelos adaptados a datos de 32 o 16 bits se pueden optimizar para operaciones con INT8 en Tesla T4 y P4, o con FP16 en Tesla V100. El SDK de NVIDIA DeepStream aprovecha la potencia de las GPU Tesla para decodificar y analizar transmisiones de vídeo de forma simultánea.

Una inferencia que maximiza el uso de la GPU, compatible con los mejores entornos

El servidor de inferencia NVIDIA Triton ofrece una inferencia para centros de datos de alta velocidad y te ayuda a aprovechar al máximo tus GPU. El servidor de inferencia NVIDIA TensorRT, que se ofrece en un receptáculo listo para su utilización, es un microservicio que te permite realizar inferencias mediante API para cualquier combinación de modelos desde Caffe2, NVIDIA TensorRT, TensorFlow y cualquier entorno compatible con el estándar ONNX en una o más GPU.

Especificaciones de rendimiento

Tesla V100: La GPU de centro de datos universal Tesla P4 para servidores multinodo ultraeficientes Tesla P40 para servidores de rendimiento de inferencia
Rendimiento en precisión simple (FP32) 14 teraflops (PCIe)
15,7 teraflops (SXM2)
5,5 teraflops 12 teraflops
Rendimiento en precisión media (FP16) 112 teraflops (PCIe)
125 teraflops (SXM2)
Operaciones con enteros (INT8) 22 TOPS* 47 TOPS*
Memoria de la GPU 16 GB HBM2 8 GB 24 GB
Ancho de banda de memoria 900 GB/s 192 GB/s 346 GB/s
Formato/interfaz del sistema Formato de altura normal PCI Express y dos ranuras SXM2/NVLink Formato reducido PCI Express Formato de altura normal PCI Express y dos ranuras
Alimentación eléctrica 250 W (PCIe)
300 W (SXM2)
50 W/75 W 250 W
Motor de vídeo con aceleración por hardware 1 motor de decodificación, 2 motores de codificación 1 motor de decodificación, 2 motores de codificación

*Teraoperaciones por segundo con frecuencia de reloj aumentada

CASOS DE ÉXITO

Búsqueda visual más rápida e inteligente

Bing utiliza la tecnología de GPU NVIDIA para acelerar la detección de objetos y ofrecer resultados pertinentes en tiempo real.

Procesamiento de imágenes y vídeo

Maximiza la eficiencia del rendimiento en las cargas de trabajo de procesamiento de imágenes y vídeo con el SDK de NVIDIA DeepStream y las GPU Tesla.

Sistemas de recomendación

Aumenta la precisión de predicción de los sistemas de recomendación con aplicaciones de filtrado colaborativo neuronal basadas en deep learning en plataformas con GPU NVIDIA.

OPTIMIZA HOY MISMO TU SOLUCIÓN DE INFERENCIA DE DEEP LEARNING.

Tesla V100, T4 y P40 ya están disponibles con inferencia de deep learning.