Façonner la nouvelle génération d'IA.
Aperçu
La plateforme NVIDIA Vera Rubin est bâtie pour l'ère de l'IA agentique et du raisonnement, conçue pour maîtriser la résolution de problèmes en plusieurs étapes et les workflows massifs à long contexte à grande échelle. En éliminant des goulets d'étranglement critiques en matière de communication et de mouvement de mémoire, la plateforme booste l'inférence pour fournir plus de jetons par watt et un coût par jeton inférieur par rapport à la génération d'architecture NVIDIA Blackwell.
Le GPU Rubin intègre un nouveau moteur Transformer (TE) avec une compression adaptative accélérée par du matériel pour augmenter les performances NVFP4 tout en préservant la précision. Cela permet d'atteindre jusqu'à 50 pétaFLOPS d'inférence NVFP4. Entièrement compatible avec NVIDIA Blackwell, le Transformer Engine garantit des mises à niveau fluides, ce qui permet une transition sans effort des codes précédemment optimisés vers la plateforme Vera Rubin.
La troisième génération de NVIDIA Confidential Computing étend la sécurité à l'échelle complète de la baie, grâce à NVIDIA Vera Rubin NVL72. Cette plateforme crée un environnement d'exécution de confiance, unifié sur les 36 CPU NVIDIA Vera, les 72 GPU NVIDIA Rubin et la structure NVIDIA NVLink™ qui les connecte de manière transparente. La plateforme préserve la sécurité des données dans les domaines CPU, GPU et NVLink. Avec des services d’attestation offrant une preuve cryptographique de conformité, elle allie une mise à l’échelle massive à une protection sans compromis, afin de sécuriser les plus grands modèles propriétaires au monde, ainsi que les données d’entraînement et les charges de travail d’inférence.
La technologie NVLink de sixième génération offre une avancée majeure en matière de structure d'interconnexion GPU à haute vitesse de NVIDIA qui unifie 72 GPU NVIDIA Rubin dans un seul domaine de performance. En doublant les performances de NVIDIA Blackwell, Rubin GPU fournit 3,6 téraoctets par seconde (To/s) de bande passante par GPU et 260 To/s de connectivité avec une faible latence pour faciliter une communication plus rapide. Combinée au protocole d'agrégation et de réduction hiérarchique évolutif de NVIDIA® (SHARP)™, qui réduit jusqu'à 50 % la congestion du réseau pour les opérations collectives, cette interconnexion de nouvelle génération accélère l'entraînement et l'inférence des plus grands modèles au monde, à grande échelle et sans compromis.
La plateforme NVIDIA Vera Rubin offre une résilience à l'échelle de la baie avec des fonctionnalités de fiabilité avancées. Les GPU NVIDIA Rubin disposent d'un moteur RAS (Reliability, Availability, Serviceability) de deuxième génération dédié pour la maintenance proactive et les contrôles d'état en temps réel sans temps d'arrêt, Les CPU NVIDIA Vera offrent une facilité de maintenance améliorée grâce aux modules de mémoire LPDDR5X à compression de faible encombrement (SOCAMM) et à des tests intégrés pour les cœurs du CPU. Le rack introduit des conceptions modulaires sans câble pour un assemblage et une facilité de service 18 fois plus rapides que NVIDIA Blackwell, combinées à une résilience intelligente et à un routage NVLink défini par logiciel, ce qui garantit un fonctionnement continu et réduit les frais de maintenance.
Le CPU NVIDIA Vera est conçu pour les mouvements de données et le raisonnement agentique sur des systèmes accélérés, avec une prise en charge complète du calcul confidentiel. Il s'associe parfaitement aux GPU NVIDIA ou fonctionne de manière indépendante pour les charges de travail d'analyse, de Cloud, d'orchestration, de stockage et de calcul haute performance (HPC). Vera combine 88 cœurs conçus par NVIDIA, jusqu'à 1,2 To/s de bande passante mémoire LPDDR5X et la structure de cohérence évolutive NVIDIA pour offrir des performances prévisibles et écoénergétiques pour les charges de travail à haute intensité de données et de mémoire, avec une compatibilité complète avec Arm®. La connectivité NVIDIA NVLink-C2C intégrée permet un accès à la mémoire CPU-GPU cohérent à bande passante élevée pour maximiser l'utilisation et l'efficacité du système.
Lisez cette étude technique approfondie pour découvrir comment NVIDIA Vera Rubin traite le centre de données comme l'unité de calcul, et non la puce, établissant ainsi une nouvelle base pour produire de l'intelligence de manière efficace, sécurisée et prévisible à grande échelle.