L'accélérateur d'inférence pour NVIDIA Vera Rubin.
Aperçu
Par le passé, les architectures dédiées aux inférences d'IA fournissaient soit de l'interactivité et de l'intelligence au détriment du débit, soit du débit et de l'intelligence au détriment de l'interactivité. En aucun cas vous ne pouviez avoir les trois à la fois. Les systèmes agentiques exigent toujours plus de puissance.
Accélérateur d'inférence pour NVIDIA Vera Rubin, le matériel NVIDIA Groq 3 LPX a été conçu pour répondre aux exigences de faible latence et de large contexte des systèmes agentiques. Vera Rubin et LPX unissent les performances extrêmes des LPU et des GPU de la plateforme NVIDIA Rubin grâce à une architecture co-conçue.
en matière d’inférence
En combinant les GPU Rubin pour la mémoire à bande passante élevée (HBM) et les LPU pour la mémoire statique à accès aléatoire (SRAM), NVIDIA Vera Rubin avec LPX propose une nouvelle classe de performances d'inférence pour les modèles dotés d'un billion de paramètres avec un contexte d'un million de jetons. Déployés avec Vera Rubin NVL72, les GPU et les LPU Rubin stimulent le décodage en calculant conjointement chaque couche du modèle d'IA pour chaque jeton de sortie.
Les systèmes agentiques consomment jusqu'à 15 fois plus de jetons que les applications d'IA traditionnelles. Les usines d'IA doivent par conséquent fournir un volume élevé de jetons et d'importantes fenêtres de contexte avec une latence faible et une économie efficace. L'association de LPX et de Vera Rubin NVL72 fournit un débit par mégawatt (MW) jusqu'à 35 fois supérieur pour des modèles comportant des billions de paramètres.
TPS : jetons par seconde. Projections de performance sujettes à modification. Niveau gratuit (0 $) : modèle Qwen-3 comportant 235 milliards de paramètres avec 32 000 jetons à valeur clé (KV) mis en cache. Niveau moyen (3 $) : modèle Kimi K2.5 comportant un billion de paramètres avec 128 000 jetons à valeur clé (KV) mis en cache. Niveau élevé (6 $) : modèle GPT-MoE comportant 2 billions de paramètres avec 128 000 jetons à valeur clé (KV) mis en cache. Niveaux Premium (45 $) et Ultra (150 $) : modèle GPT-MoE à 2 billions de paramètres avec 400 000 jetons à valeur clé (KV) mis en cache.
Les agents constituent des unités d'intelligence, et l'inférence représente leur carburant. Pour fournir une valeur ajoutée concrète, les systèmes agentiques nécessitent des jetons de haute valeur qui sont plus rapides et qui intègrent davantage de contexte. L'association de LPX à Vera Rubin permet aux usines d'IA de produire des jetons de qualité supérieure à grande échelle, débloquant ainsi 10 fois plus de revenus par Watt.
Revenu projeté basé sur le débit par gigawatt des usines d'IA et sur un modèle de tarification échelonnée estimé en coût par million de jetons.
Le LPU NVIDIA Groq 3 constitue la nouvelle génération de l'unité de traitement du langage de Groq à haut degré d'innovation. Chaque rack LPX comprend 256 accélérateurs LPU interconnectés qui, avec la plateforme NVIDIA Vera Rubin, travaillent à accélérer l'inférence de manière significative. Chaque accélérateur LPU fournit 500 mégaoctets (Mo) de SRAM, 150 téraoctets par seconde (To/s) de bande passante SRAM et 2,5 To/s de bande passante Scale-Up.
Innovations technologiques
Basé sur une conception conjointe extrême, NVIDIA Vera Rubin NVL72 unifie sept puces spécialement conçues en un seul supercalculateur d'IA.
Dans un seul rack LPX, 256 puces LPU sont regroupées pour fournir des performances extrêmes.
Dans chaque rack, LPX fournit 128 Go de SRAM pour un traitement à faible latence et 12 To de mémoire DDR5 pour les modèles et les charges de travail de grande taille.
Une bande passante SRAM de 40 pétaoctets par seconde (PB/s) par rack offre une faible latence.
Les liaisons directes de puces à puce fournissent 640 To/s de bande passante évolutive sur le rack LPX pour une communication entre puces à faible latence.
Les connexions à haute vitesse de LPX vers NVL72 réduisent la latence à un niveau proche de zéro.
LPX met à profit le rack d'extraction, de transformation et de chargement (ETL) NVIDIA MGX™, permettant ainsi aux usines de jetons de planifier un seul rack universel dans leurs déploiements de plateforme NVIDIA Vera Rubin.
Inscrivez-vous pour recevoir les dernières actualités et annonces de NVIDIA.