L'accélérateur d'inférence pour NVIDIA Vera Rubin.
Aperçu
Par le passé, les architectures dédiées aux inférences d'IA fournissaient soit de l'interactivité et de l'intelligence au détriment du débit, soit du débit et de l'intelligence au détriment de l'interactivité. En aucun cas vous ne pouviez avoir les trois à la fois. Les systèmes agentiques exigent toujours plus de puissance.
Accélérateur d'inférence pour NVIDIA Vera Rubin, le matériel NVIDIA Groq 3 LPX a été conçu pour répondre aux exigences de faible latence et de large contexte des systèmes agentiques. Vera Rubin et LPX unissent les performances extrêmes des LPU et des GPU de la plateforme NVIDIA Rubin grâce à une architecture co-conçue.
en matière d’inférence
En combinant les GPU Rubin pour la mémoire à bande passante élevée (HBM) et les LPU pour la mémoire statique à accès aléatoire (SRAM), NVIDIA Vera Rubin avec LPX propose une nouvelle classe de performances d'inférence pour les modèles dotés d'un billion de paramètres avec un contexte d'un million de jetons. Déployés avec Vera Rubin NVL72, les GPU et les LPU Rubin stimulent le décodage en calculant conjointement chaque couche du modèle d'IA pour chaque jeton de sortie.
Les systèmes agentiques consomment jusqu'à 15 fois plus de jetons que les applications d'IA traditionnelles. Les usines d'IA doivent par conséquent fournir un volume élevé de jetons et d'importantes fenêtres de contexte avec une latence faible et une économie efficace. L'association de LPX et de Vera Rubin fournit un débit par mégawatt jusqu'à 35 fois supérieur pour des modèles comportant des billions de paramètres.
Les agents constituent des unités d'intelligence, et l'inférence représente leur carburant. Pour offrir un impact concret, les systèmes agentiques doivent recourir à des jetons à la fois rapides et intelligents. Lorsque LPX est associé à Vera Rubin, le débit par Watt et les performances par jeton supplémentaires ouvrent un nouveau niveau d'inférence ultra-premium avec des billions de paramètres et des millions de contextes, augmentant ainsi les opportunités de revenus pour tous les fournisseurs d'IA.
Le LPU NVIDIA Groq 3 constitue la nouvelle génération de l'unité de traitement du langage de Groq à haut degré d'innovation. Chaque rack LPX comprend 256 accélérateurs LPU interconnectés qui, avec la plateforme NVIDIA Vera Rubin, œuvrent à accélérer l'inférence de manière significative. Chaque accélérateur LPU fournit 500 mégaoctets (Mo) de SRAM, 150 téraoctets par seconde (To/s) de bande passante SRAM et 2,5 To/s de bande passante Scale-Up.
Innovations technologiques
Basé sur une conception conjointe extrême, NVIDIA Vera Rubin NVL72 unifie sept puces spécialement conçues en un seul supercalculateur d'IA.
Dans un seul rack LPX, 256 puces LPU sont regroupées pour fournir des performances extrêmes.
Dans chaque rack, LPX fournit 128 Go de SRAM pour un traitement à faible latence et 12 To de mémoire DDR5 pour les modèles et les charges de travail de grande taille.
Une bande passante SRAM de 40 pétaoctets par seconde (PB/s) par rack offre une faible latence.
Les liaisons directes chip-to-chip fournissent 640 To/s de bande passante évolutive sur le rack LPX pour une communication entre puces à faible latence.
Les connexions à haute vitesse de LPX vers NVL72 réduisent la latence à un niveau proche de zéro.
LPX met à profit le rack d'extraction, de transformation et de chargement (ETL) NVIDIA MGX™, permettant ainsi aux usines de jetons de planifier un seul rack universel dans leurs déploiements de plateforme NVIDIA Vera Rubin.
Inscrivez-vous pour recevoir les dernières informations et annonces de NVIDIA.