Diseñados para posibilitar una implementación rápida y fiable de la inferencia de IA generativa acelerada en cualquier lugar.
NVIDIA NIM™ ofrece microservicios de inferencia optimizados y prediseñados para implementar rápidamente los últimos modelos de IA en cualquier infraestructura acelerada por NVIDIA: la nube, el centro de datos, la estación de trabajo y el perímetro.
NVIDIA NIM combina la facilidad de uso y la simplicidad operativa de las API gestionadas con la flexibilidad y la seguridad de los modelos autohospedados en su infraestructura preferida. Los microservicios NIM incluyen todo lo que los equipos de IA requieren —los últimos modelos básicos de IA, motores de inferencia optimizados, interfaces API estándar del sector y dependencias en tiempo de ejecución— preempaquetados en contenedores de software de nivel empresarial listos para que puedan implementarse y escalarse en cualquier lugar.
Microservicios sencillos de nivel empresarial construidos para la IA de alto rendimiento, diseñados para funcionar a la perfección y escalar de forma asequible. Experimente el tiempo de obtención de valor más rápido para agentes de IA y otras aplicaciones de IA generativa empresarial, impulsadas por los últimos modelos de IA para razonamiento, simulación, voz y mucho más.
Acelere la innovación y el tiempo de comercialización con microservicios optimizados y prediseñados para los últimos modelos de IA. Con las API estándar, los modelos se pueden implementar en cinco minutos e integrarse fácilmente en las aplicaciones.
Implemente microservicios de nivel empresarial que NVIDIA gestiona continuamente a través de procesos de validación rigurosos y ramificaciones de características dedicadas, todo ello respaldado por el soporte empresarial de NVIDIA, que ofrece además acceso directo a los expertos de NVIDIA AI.
Mejore el coste total de la propiedad (TCO) mediante la inferencia de IA de alta capacidad de procesamiento y baja latencia que escala con la nube y logre la mejor precisión con compatibilidad para modelos ajustados con precisión listos para usar.
Implemente donde quiera con microservicios prediseñados, nativos de la nube, listos para ejecutarse en cualquier infraestructura acelerada por NVIDIA (nube, centro de datos o estación de trabajo) y escale sin complicaciones en entornos de Kubernetes y de proveedor de servicios en la nube.
NVIDIA NIM ofrece capacidad de procesamiento y latencia optimizados preparados para maximizar la generación de tokens, admitir usuarios simultáneos en momentos pico y mejorar la capacidad de respuesta. Los microservicios NIM se actualizan continuamente con los últimos motores de inferencia optimizados y aumentan el rendimiento en la misma infraestructura con el tiempo.
Configuración: instrucción Llama 3.1 8B, 1 H100 SXM; solicitudes simultáneas: 200. NIM ACTIVADO: FP8, rendimiento 1201 tokens/s, ITL 32 ms. NIM DESACTIVADO: FP8, rendimiento de 613 tokens/seg, ITL 37 ms.
Implemente modelos lingüísticos de gran tamaño (LLM) compatibles con NVIDIA® TensorRT™-LLM, vLLM o SGLang para una inferencia de baja latencia y alto rendimiento en una infraestructura acelerada por NVIDIA.
Al estar diseñados para ejecutarse en cualquier lugar, los microservicios de inferencia NIM ponen a su disposición las API estándar del sector para simplificar la integración con los sistemas y aplicaciones empresariales y escalan de forma impecable en Kubernetes para brindar una inferencia de alta capacidad de procesamiento y baja latencia a escala de nube.
Implemente NIM para su modelo con un solo comando. También puede ejecutar NIM fácilmente con LLM compatibles con NVIDIA TensorRT-LLM, vLLM o SGLang, incluidos modelos ajustados.
Ponga en marcha NIM con el motor de tiempo de ejecución óptimo basado en su infraestructura acelerada por NVIDIA.
Los desarrolladores pueden integrar puntos finales NIM autohospedados con tan solo unas pocas líneas de código.
Compruebe cómo NVIDIA NIM resulta útil en casos de uso del sector e inicie su desarrollo de IA con ejemplos seleccionados.
Mejore las experiencias de los clientes y los procesos empresariales en las telecomunicaciones con la IA generativa.
Use la IA generativa para acelerar y automatizar el procesamiento de documentos.
Ofrezca experiencias personalizadas que incrementen la satisfacción del cliente con la tecnología de la IA.
Utilice OpenUSD y la IA generativa para desarrollar e implementar herramientas y experiencias de configurador de productos 3D en prácticamente cualquier dispositivo.