NVIDIA Groq 3 LPX

L'accélérateur d'inférence pour NVIDIA Vera Rubin.

Aperçu
Performances
Innovations technologiques
Démarrer

Aperçu
Performances
Innovations technologiques
Démarrer

Aperçu

Vitesse et évolutivité

Par le passé, les architectures dédiées aux inférences d'IA fournissaient soit de l'interactivité et de l'intelligence au détriment du débit, soit du débit et de l'intelligence au détriment de l'interactivité. En aucun cas vous ne pouviez avoir les trois à la fois. Les systèmes agentiques exigent toujours plus de puissance.

Accélérateur d'inférence pour NVIDIA Vera Rubin, le matériel NVIDIA Groq 3 LPX a été conçu pour répondre aux exigences de faible latence et de large contexte des systèmes agentiques. Vera Rubin et LPX unissent les performances extrêmes des LPU et des GPU de la plateforme NVIDIA Rubin grâce à une architecture co-conçue.

NVIDIA Vera Rubin repousse les frontières de l'IA agentique

La plateforme NVIDIA Vera Rubin se compose de sept nouvelles puces désormais en pleine production pour faire évoluer les usines d'IA les plus importantes au monde.

Lire le communiqué de presse

À l'intérieur de NVIDIA Groq 3 LPX : la septième puce de la plateforme NVIDIA Vera Rubin

NVIDIA Groq 3 LPX étend les capacités des usines d'IA grâce à une génération de jetons déterministe à faible latence qui complète les GPU NVIDIA Rubin pour les charges de travail d'inférence en temps réel.

Lire l'article technique

en matière d’inférence

Latence extrêmement faible et rendement exceptionnel

En combinant les GPU Rubin pour la mémoire à bande passante élevée (HBM) et les LPU pour la mémoire statique à accès aléatoire (SRAM), NVIDIA Vera Rubin avec LPX propose une nouvelle classe de performances d'inférence pour les modèles dotés d'un billion de paramètres avec un contexte d'un million de jetons. Déployés avec Vera Rubin NVL72, les GPU et les LPU Rubin stimulent le décodage en calculant conjointement chaque couche du modèle d'IA pour chaque jeton de sortie.

Débit 35 fois plus élevé pour les modèles comptant des billions de paramètres

Les systèmes agentiques consomment jusqu'à 15 fois plus de jetons que les applications d'IA traditionnelles. Les usines d'IA doivent par conséquent fournir un volume élevé de jetons et d'importantes fenêtres de contexte avec une latence faible et une économie efficace. L'association de LPX et de Vera Rubin NVL72 fournit un débit par mégawatt (MW) jusqu'à 35 fois supérieur pour des modèles comportant des billions de paramètres.

TPS : jetons par seconde. Projections de performance sujettes à modification. Niveau gratuit (0 $) : modèle Qwen-3 comportant 235 milliards de paramètres avec 32 000 jetons à valeur clé (KV) mis en cache. Niveau moyen (3 $) : modèle Kimi K2.5 comportant un billion de paramètres avec 128 000 jetons à valeur clé (KV) mis en cache. Niveau élevé (6 $) : modèle GPT-MoE comportant 2 billions de paramètres avec 128 000 jetons à valeur clé (KV) mis en cache. Niveaux Premium (45 $) et Ultra (150 $) : modèle GPT-MoE à 2 billions de paramètres avec 400 000 jetons à valeur clé (KV) mis en cache.

Nouvelle catégorie d'inférence : une opportunité de revenus multipliée par 10

Les agents constituent des unités d'intelligence, et l'inférence représente leur carburant. Pour fournir une valeur ajoutée concrète, les systèmes agentiques nécessitent des jetons de haute valeur qui sont plus rapides et qui intègrent davantage de contexte. L'association de LPX à Vera Rubin permet aux usines d'IA de produire des jetons de qualité supérieure à grande échelle, débloquant ainsi 10 fois plus de revenus par Watt.

Revenu projeté basé sur le débit par gigawatt des usines d'IA et sur un modèle de tarification échelonnée estimé en coût par million de jetons.

Accélérateur d'inférence du LPU NVIDIA Groq 3

Le LPU NVIDIA Groq 3 constitue la nouvelle génération de l'unité de traitement du langage de Groq à haut degré d'innovation. Chaque rack LPX comprend 256 accélérateurs LPU interconnectés qui, avec la plateforme NVIDIA Vera Rubin, travaillent à accélérer l'inférence de manière significative. Chaque accélérateur LPU fournit 500 mégaoctets (Mo) de SRAM, 150 téraoctets par seconde (To/s) de bande passante SRAM et 2,5 To/s de bande passante Scale-Up.

Accélérateur d'inférence du LPU NVIDIA Groq 3

Innovations technologiques

Conception conjointe extrême. Résultats extraordinaires.

Basé sur une conception conjointe extrême, NVIDIA Vera Rubin NVL72 unifie sept puces spécialement conçues en un seul supercalculateur d'IA.

Échelle de rack

Dans un seul rack LPX, 256 puces LPU sont regroupées pour fournir des performances extrêmes.

Architecture de mémoire fusionnée

Dans chaque rack, LPX fournit 128 Go de SRAM pour un traitement à faible latence et 12 To de mémoire DDR5 pour les modèles et les charges de travail de grande taille.

SRAM à haute vitesse

Une bande passante SRAM de 40 pétaoctets par seconde (PB/s) par rack offre une faible latence.

Bande passante évolutive massive

Les liaisons directes de puces à puce fournissent 640 To/s de bande passante évolutive sur le rack LPX pour une communication entre puces à faible latence.

Connexion haute vitesse avec NVIDIA NVL72

Les connexions à haute vitesse de LPX vers NVL72 réduisent la latence à un niveau proche de zéro.

Rack NVIDIA MGX ETL

LPX met à profit le rack d'extraction, de transformation et de chargement (ETL) NVIDIA MGX™, permettant ainsi aux usines de jetons de planifier un seul rack universel dans leurs déploiements de plateforme NVIDIA Vera Rubin.

Démarrer

Suivez l'actualité de NVIDIA

Inscrivez-vous pour recevoir les dernières actualités et annonces de NVIDIA.

Restez informés