Arquitecturas de referencia empresarial de NVIDIA.

Arquitecturas de referencia empresarial

Construir fábricas de IA que se escalen

Convierta su centro de datos en una fábrica de IA de alto rendimiento con las arquitecturas de referencia empresariales de NVIDIA.

Descripción

Los elementos fundamentales para el éxito de la IA

Las arquitecturas de referencia empresariales (RA empresariales) de NVIDIA permiten a las organizaciones diseñar, implementar y escalar fábricas de IA de alto rendimiento con una infraestructura validada y repetible. Estos diseños combinan computación certificada, redes de alta velocidad este-oeste y norte-sur, herramientas de observabilidad y software para garantizar un rendimiento escalable, desde clústeres de cuatro nodos hasta entornos a escala empresarial.

Palantir se asocia con NVIDIA para ofrecer una arquitectura de referencia de sistemas operativos de IA soberana

La arquitectura de referencia de sistemas operativos de IA soberana de Palantir se basa en los RA empresariales de NVIDIA, que han sido probados y calificados para ejecutar el conjunto de software completo de Palantir en la infraestructura de IA de NVIDIA.

Diseño probado y rendimiento validado

Descubra cómo las RA empresariales, basadas en implementaciones del mundo real y configuraciones probadas en batalla, simplifican la planificación y maximizan el retorno de la inversión para la infraestructura de IA escalable.

Arquitecturas de referencia empresarial

Su guía para toda familia

Ya está disponible un conjunto completo de instrucciones para configurar clústeres en el centro de datos.

Infraestructura

Las arquitecturas de referencia empresariales de NVIDIA comienzan con configuraciones de hardware validadas, incluidos patrones de nodos de red CPU-GPU, diagramas de cableado y datos de infraestructura.

Lógica de red

La Guía de lógica de configuración de redes y arquitectura lógica para RA empresariales proporciona instrucciones para la gestión y el aprovisionamiento de nodos mediante el diseño de VLAN y la simulación de redes en NVIDIA Air.

Software

Nuestra pila de referencia de software para RA empresariales describe el software para gestionar, aprovisionar y dimensionar clústeres de infraestructura. Las versiones actuales se centran en Kubernetes de código abierto, con el software NVIDIA AI Enterprise y NVIDIA Run:ai.

Observabilidad

La Guía de observabilidad para las arquitecturas de referencia empresariales de NVIDIA utiliza herramientas de código abierto, como Prometheus y Grafana, para supervisar el rendimiento de la GPU y las redes en todo el clúster. Los paneles proporcionan métricas en tiempo real sobre el estado del sistema y la eficiencia de la carga de trabajo.

Implementación

La Guía de implementación para arquitecturas de referencia empresariales de NVIDIA es una recopilación de las mejores prácticas de infraestructura que nuestro equipo ha aprendido al crear, implementar, probar y validar los clústeres internos sobre los que hemos creado nuestro programa.

Almacenamiento

El programa de almacenamiento certificado por NVIDIA es un esfuerzo complementario de partners seleccionados que han creado guías de almacenamiento diseñadas para integrarse en las RA empresariales. Más información sobre este programa único.

Casos de uso

Diseñado para cada caso de uso

Acelere las cargas de trabajo de IA de agentes, IA física, computación de alto rendimiento (HPC) y simulación de IA con las arquitecturas de referencia empresariales probadas de NVIDIA y los sistemas certificados por NVIDIA de partners globales. A continuación se describen las principales configuraciones de clústeres de infraestructura para implementar fábricas de IA empresariales.

NVIDIA RTX PRO AI Factory

La configuración de NVIDIA RTX PRO™ AI Factory está diseñada para un amplio espectro de cargas de trabajo empresariales, que incluyen IA generativa y de agentes, análisis de datos, computación visual y simulación de ingeniería. Las implementaciones se optimizan en torno a puntos de diseño de 16 y 32 nodos, lo que proporciona un equilibrio ideal de rendimiento, escalabilidad y eficiencia de implementación. Diseñados para la aceleración de cargas de trabajo universales en IA, simulación y computación visual empresarial, los servidores NVIDIA RTX PRO están optimizados para entornos PCIe, lo que los hace ideales para centros de datos con restricciones de espacio, energía y refrigeración. Diseñados específicamente para cargas de trabajo de IA modernas, ofrecen un rendimiento eficiente para la IA de agentes y la inferencia de modelos lingüísticos de gran tamaño (LLM).

NVIDIA HGX AI Factory

La configuración de alto rendimiento de NVIDIA HGX AI Factory está diseñada específicamente para el entrenamiento y la inferencia de IA de varios nodos a escala, aprovechando los sistemas NVIDIA HGX. Disponible en puntos de diseño de 32, 64 y 128 nodos y compatible con las redes NVIDIA Spectrum-X™, la arquitectura cuenta con un diseño flexible y optimizado para rieles que permite una integración eficiente en diversos diseños de bastidor, al tiempo que proporciona una alta capacidad de procesamiento y un rendimiento de baja latencia. Proporciona un rendimiento sin precedentes para usuarios avanzados de IA que ejecutan las cargas de trabajo más exigentes, permite el entrenamiento y el ajuste de modelos a gran escala, y acelera drásticamente la inferencia. Con la precisión de última generación y las interconexiones ultrarrápidas, la solución logra un rendimiento de tokens hasta 15 veces superior.

NVIDIA NVL72 AI Factory

La configuración de fábrica de IA de NVIDIA NVL72 está diseñada para entrenar e implementar modelos con billones de parámetros, lo que proporciona potencia de computación a exaescala dentro de un solo bastidor. Diseñado para un rendimiento de modelos masivo, la inferencia multiusuario y la inferencia en tiempo real a escala, permite la próxima generación de innovación impulsada por IA. Los puntos de diseño de implementación se centran en configuraciones de cuatro y ocho bastidores. La arquitectura, basada en una red flexible y optimizada para rieles, se adapta a diversos diseños de bastidores y sistemas, al tiempo que proporciona un rendimiento de gran ancho de banda y baja latencia. La plataforma proporciona un resultado de AI factory excepcional con eficiencia energética líder en el sector y está impulsada por NVIDIA NVLink™ de quinta generación, núcleos Tensor FP4 e innovaciones térmicas avanzadas.

Ventajas

El valor estratégico de las RA empresariales

Desbloquee una infraestructura de IA escalable y de alto rendimiento con configuraciones probadas y listas para partners.

Máximo rendimiento para cargas de trabajo de IA

Satisfaga las exigencias intensivas de la inferencia, el ajuste preciso y el entrenamiento de IA con arquitecturas que garantizan la utilización y la consistencia del rendimiento totales de la GPU en clústeres de varios nodos.

Escalado flexible, operaciones simplificadas

Amplíe fácilmente su infraestructura y garantice una implementación escalable y optimizada para hasta 128 nodos. Cree la base para soluciones de pila completa con el diseño validado NVIDIA Enterprise AI Factory, que aprovecha nuestro ecosistema de software.

Reduzca la complejidad y el TCO

Simplifique los procesos de implementación y los diseños eficientes, reduzca la complejidad y el costo total de propiedad (TCO), al tiempo que reduce el tiempo de generación de valor.

Sostenibilidad

Siga patrones de diseño específicos y estandarizados para lograr un funcionamiento uniforme de una instalación a otra, reducir la necesidad de soporte frecuente y permitir tiempos de resolución más rápidos.

Partners

Asociados para el rendimiento

Nos enorgullece colaborar con partners líderes a medida que llevan al mercado arquitecturas de referencia empresariales y soluciones de fábrica de IA. Los diseños aprobados de estos partners han pasado por nuestro Consejo de Revisión de Diseño y ofrecen una orientación que merece nuestra aprobación en una o más de las siguientes categorías: infraestructura, lógica de red y software.

Arquitectura de referencia de sistemas operativos de IA soberana de Palantir con NVIDIA

La arquitectura de referencia de sistemas operativos de IA soberana de Palantir se basa en los RA empresariales de NVIDIA, que han sido probados y calificados para ejecutar el conjunto de software completo de Palantir en la infraestructura de IA de NVIDIA con nuestros partners de sistemas globales. Esta arquitectura de IA soberana es crítica para clientes con flujos de trabajo sensibles a la latencia, requisitos de soberanía de datos y alta distribución geográfica. La arquitectura proporciona a las empresas un control total de sus datos, modelos de IA y aplicaciones.

Recursos

Más información sobre las RA empresariales

Arquitectura de referencia de fábrica de IA NVIDIA RTX PRO

La configuración NVIDIA RTX PRO AI Factory admite una amplia gama de cargas de trabajo empresariales, que incluyen inferencia de IA agéntica, IA física e industrial, computación visual y computación de alto rendimiento para el análisis y la simulación de datos. Este documento detalla los componentes de hardware que sustentan esta arquitectura escalable y modular.

Arquitectura de referencia de fábrica de IA NVIDIA HGX

La configuración de NVIDIA HGX AI Factory se centra en la inferencia de IA de alto rendimiento, el entrenamiento de modelos y el ajuste preciso. Este documento describe los componentes de hardware de una arquitectura escalable y modular, incluida la orientación de clústeres y las topologías de entramado de red utilizadas para interconectar el clúster.

Desbloquea un rendimiento masivo de tokens con NVIDIA Run:ai

Las pruebas de referencia conjuntas con Nebius muestran que las implementaciones de GPU fraccionarias con NVIDIA Run:ai en las arquitecturas de referencia empresariales de NVIDIA mejoran significativamente el rendimiento y la utilización de las cargas de trabajo de LLM de producción.

Descripción general de la arquitectura de referencia empresarial de NVIDIA

Este documento técnico presenta las arquitecturas de referencia empresariales de NVIDIA, que proporcionan una guía probada para diseñar y crear fábricas de IA para implementaciones de clase empresarial que van desde 32 hasta 1.024 GPU. Estas arquitecturas ayudan a simplificar la implementación de la infraestructura de IA, reducir la complejidad operativa y acelerar el tiempo de generación de valor.

Redes Norte-Sur: la clave para unas cargas de trabajo de IA empresarial más rápidas

Las arquitecturas de referencia empresarial de NVIDIA guían a las organizaciones en la implementación de fábricas de IA que utilizan redes norte-sur y este-oeste, proporcionando procedimientos de diseño para una infraestructura de IA escalable, segura y de alto rendimiento.

Implementación de NVIDIA H200 NVL a escala con una nueva arquitectura de referencia empresarial

NVIDIA H200 NVL acelera la implementación de IA con memoria mejorada, NVLink de alta velocidad y una configuración de RA empresarial optimizada.

La fábrica de IA de NVIDIA promueve la innovación empresarial a escala

NVIDIA creó una fábrica de IA unificada para escalar los flujos de trabajo de IA generativa y de agentes en toda la empresa, lo que garantiza la seguridad, el rendimiento y la coherencia. La plataforma admite cientos de agentes de IA que aceleran la innovación, agilizan la ingeniería de software y hardware, y optimizan las operaciones de la cadena de suministro, lo que reduce los tiempos de planificación en más de un 95 % y logra en un solo un año el trabajo de ingeniería equivalente a décadas.

NVIDIA Blackwell Ultra ofrece un rendimiento hasta 50 veces mejor y un coste 35 veces menor para la IA de agentes

Diseñada para acelerar la próxima generación de IA de agentes, NVIDIA Blackwell Ultra ofrece un rendimiento de inferencia sin precedentes con un coste drásticamente inferior. Algunos proveedores de la nube, como Microsoft, CoreWeave y Oracle Cloud Infrastructure, están implementando sistemas NVIDIA GB300 NVL72 a escala para casos de uso de baja latencia y contexto largo, como codificación agentiva y asistentes de codificación.

Esto es posible gracias al diseño conjunto profundo en NVIDIA Blackwell, NVLink™ y NVLink Switch para escalar, NVFP4 para una exactitud de baja precisión, y NVIDIA Dynamo y TensorRT™ LLM para obtener velocidad y flexibilidad, así como el desarrollo con los entornos de trabajo de la comunidad SGLang, vLLM y otros.

Próximos pasos

¿Listo para empezar?

Más información sobre NVIDIA Enterprise AI Factory.

Profundice en las arquitecturas de referencia empresariales de NVIDIA

Explore cómo las arquitecturas de referencia empresariales de NVIDIA proporcionan blueprints escalables y prescriptivos para implementar una infraestructura de IA de alto rendimiento.

Especificaciones de configuración de clústeres 2-8-5-200

Especificaciones de configuración de clústeres 2-8-9-400

Especificaciones de configuración de clústeres 2-4-6-400

Cisco es el líder tecnológico mundial que está revolucionando la forma en que las organizaciones se conectan y protegen en la era de la IA. Durante más de 40 años, Cisco ha conectado el mundo de forma segura. Con sus soluciones y servicios líderes en el sector impulsados por IA, Cisco permite a sus clientes, partners y comunidades desbloquear la innovación, mejorar la productividad y fortalecer la resiliencia digital. Con un propósito como eje central, Cisco sigue comprometido con la creación de un futuro más conectado e inclusivo para todos.

Soluciones aprobadas por el NVIDIA Design Review Board:

Dell Technologies ayuda a las organizaciones y personas a crear su futuro digital y transformar su forma de trabajar, vivir y jugar. La empresa proporciona a los clientes la cartera de tecnología y servicios más amplia e innovadora del sector para la era de la IA.

Soluciones aprobadas por el NVIDIA Design Review Board:

HPE es líder en tecnología empresarial esencial, que reúne la potencia de la IA, la nube y las redes para ayudar a las organizaciones a alcanzar mejores resultados. Como pioneros que abren nuevas posibilidades, nuestra innovación y experiencia avanzan la forma en que las personas viven y trabajan. Permitimos a nuestros clientes de todos los sectores optimizar el rendimiento operativo, transformar los datos en previsión y maximizar su impacto. Atrévase a alcanzar sus metas más ambiciosas con HPE

Soluciones aprobadas por el NVIDIA Design Review Board:

Lenovo es una potencia tecnológica global con ingresos de 69 000 millones de dólares, ocupa el puesto 196 en la Fortune Global 500 y presta servicios a millones de clientes en 180 mercados cada día. Nuestra asociación continua con NVIDIA, centrada en una visión audaz para ofrecer una tecnología más inteligente para todos, combina servidores Lenovo con GPU aceleradas. Lenovo Hybrid AI Advantage™ con NVIDIA aumenta la productividad y la innovación con una implementación de IA más rápida, impulsada por la biblioteca de IA de Lenovo y una cartera de pila completa de infraestructura de IA, dispositivos, soluciones y servicios.

Soluciones aprobadas por el NVIDIA Design Review Board:

Supermicro es un líder mundial en soluciones de TI totales optimizadas para aplicaciones. Fundada y operativa en San José, California, Supermicro se ha comprometido a ofrecer innovación pionera en el mercado para empresas, nube, inteligencia artificial e infraestructura de TI para telecomunicaciones y borde 5G. Somos un proveedor de soluciones de TI totales con servidores, IA, almacenamiento, IoT, sistemas de conmutación, software y servicios de soporte. La experiencia de Supermicro en el diseño de placas base, fuentes de alimentación y chasis facilita aún más nuestro desarrollo y producción, permitiendo la innovación de próxima generación desde la nube hasta el borde para nuestros clientes de todo el mundo.

Soluciones aprobadas por el NVIDIA Design Review Board: