GPU NVIDIA A100 Tensor Core

Accélération sans précédent à tous les niveaux

Accélérez les plus importants projets de notre époque

Le GPU NVIDIA A100 Tensor Core offre des capacités d’accélération sans précédent à tous les niveaux afin d’alimenter les Data Centers élastiques les plus puissants au monde dans les domaines de l’IA, de l’analyse de données et du HPC. Basé sur l’architecture NVIDIA Ampere, l’A100 est le moteur de la nouvelle plateforme de NVIDIA pour les Data Centers. L’A100 offre des performances jusqu’à 20 fois plus élevées que celles de la génération précédente et peut être partitionné en sept instances de GPU pour s’adapter de manière dynamique à l’évolution des demandes. L’A100 80 Go inaugure la bande passante mémoire la plus rapide au monde, à plus de 2 téraoctets par seconde (TB/s), pour exécuter les plus grands modèles et jeux de données.

Logiciels d’IA adaptés aux entreprises

La plateforme NVIDIA EGX centralise des logiciels optimisés offrant une accélération significative du calcul informatique sur l’ensemble de l’infrastructure. NVIDIA AI Enterprise est une suite logicielle d’IA et d’analyse de données de bout en bout native pour le Cloud spécialement optimisée, certifiée et prise en charge par NVIDIA pour une exécution sur VMware vSphere avec les systèmes NVIDIA certifiés. Elle inclut des technologies essentielles de NVIDIA qui permettent aux entreprises de déployer, gérer et faire évoluer rapidement leurs charges de travail d’IA sur les Clouds hybrides modernes.

La plateforme pour Data Center de bout en bout la plus puissante au monde pour l’IA et le HPC

Les GPU A100 sont des composants essentiels de la solution de NVIDIA pour Data Center, regroupant un ensemble complet de solutions matérielles et logicielles, de systèmes de mise en réseau, de bibliothèques, de modèles d’IA et d’applications optimisées par NGC. Dédiée à l’IA et au HPC, cette plateforme de bout en bout pour Data Center est la plus puissante du marché. Les chercheurs du monde entier peuvent ainsi aboutir plus rapidement à des résultats concrets et déployer des solutions de production hautement évolutives.

 

Making-of de l’architecture Ampere

Entraînement Deep Learning

Entraînement jusqu’à 3 fois plus rapide avec les modèles les plus complexes

Entraînement DLRM

Entraînement jusqu’à 3 fois plus rapide avec les modèles les plus complexes

Les modèles d’IA gagnent en complexité alors que surgissent de nouveaux défis tels que la conception d’applications d’IA conversationnelle à hautes performances. Leur entraînement requiert une puissance de calcul massive ainsi qu’une importante évolutivité.

Les cœurs Tensor des GPU A100 ainsi que leurs capacités de calcul de niveau TF32 (Tensor Float 32) vous offrent, sans changement du code-source, des performances jusqu’à 20 fois plus élevées par rapport aux GPU NVIDIA Volta et un rendement doublé grâce à la technologie NVIDIA de précision mixte automatique ainsi qu’à la prise en charge des calculs FP16. Mais ce n’est pas tout : l’association des technologies NVIDIA® NVLink® et NVIDIA NVSwitch, de la norme PCI Gen4, de NVIDIA® Mellanox® InfiniBand® et du kit de développement logiciel NVIDIA Magnum IO vous permet d’interconnecter plusieurs milliers de GPU A100 pour bénéficier d’une puissance de calcul phénoménale.

Cela signifie que des charges de travail d’entraînement basées sur des modèles de langage comme BERT peuvent être traitées en moins d'une minute sur un cluster composé de 2 048 GPU A100, vous offrant une réduction significative des délais d’exécution.

Avec des modèles complexes dotés de tables de données massives, tels que les modèles de recommandation pour le Deep Learning (DLRM), un GPU A100 à 80 Go peut mettre en œuvre jusqu’à 1,3 To de mémoire unifiée et fournir un rendement jusqu’à 3 fois plus élevé par rapport au GPU A100 à 40 Go.

NVIDIA a démontré son leadership en enregistrant des performances record dans MLPerf, le premier benchmark d’IA pour l’entraînement à faire autorité dans toute l’industrie.

Inférence Deep Learning

Le GPU A100 comporte des fonctionnalités révolutionnaires qui optimisent les charges de travail d’inférence. Il délivre par ailleurs une polyvalence sans précédent qui permet d’améliorer les performances de calcul à tous les niveaux de précision (de FP32 à INT4). La technologie de GPU multi-instances (MIG), qui permet à plusieurs réseaux de fonctionner en simultané sur un seul GPU A100, offre quant à elle une utilisation optimale des ressources de calcul. La technologie de dispersion structurelle fournit près de 2 fois plus de performances de calcul ainsi que de nombreux gains de performance pour l'inférence.

Avec des modèles d’IA conversationnelle de pointe comme BERT, le GPU A100 accélère jusqu’à 249 fois le débit des inférences par rapport aux configurations basées sur le traitement CPU.

Et pour les modèles plus complexes contraints par des spécifications de batch (tels que RNN-T pour la reconnaissance vocale automatique), la capacité de mémoire accrue du GPU A100 à 80 Go permet de doubler la taille de chaque instance MIG afin d’offrir un rendement jusqu’à 1,25 fois plus élevé qu’avec un GPU A100 à 40 Go.

NVIDIA fournit déjà des performances d’inférence à la pointe de l’industrie, comme l’illustrent les scores enregistrés dans le benchmark MLPerf Inference. Aujourd'hui, le GPU A100 contribue à consolider ce leadership en délivrant près de 20 fois plus de performances.

Performances d’inférence IA jusqu’à 249 fois
plus élevées par rapport au traitement CPU

Inférence à grande échelle avec BERT

Performances d’inférence IA jusqu’à 249 fois plus élevées par rapport au traitement CPU

Performances d’inférence IA jusqu’à 1,25 fois
plus élevées par rapport au GPU A100 à 40 Go

Inférence RNN-T : flux unique

Performances d’inférence IA jusqu’à 1,25 fois plus élevées par rapport au GPU A100 à 40 Go

Calcul haute performance

Pour réaliser de nouvelles découvertes scientifiques, les chercheurs ont aujourd’hui recours à des simulations avancées qui les aident à mieux comprendre le monde qui nous entoure.

Avec ses cœurs Tensor de calcul en double précision, NVIDIA A100 constitue l’avancée technologique la plus importante depuis la mise en œuvre des GPU pour le calcul haute performance. Grâce à 80 Go de mémoire GPU ultra-rapide, les chercheurs peuvent faire aboutir en moins de quatre heures un projet de simulation en double précision qui aurait auparavant nécessité une dizaine d’heures. Les applications HPC peuvent désormais profiter des capacités de calcul TF32 du GPU A100 pour accélérer jusqu’à onze fois les opérations de multiplication matricielle en simple précision.

Et pour les applications HPC avec des jeux de données encore plus volumineux, la mémoire additionnelle du GPU A100 à 80Go offre un rendement jusqu’à 2 fois plus élevé avec Quantum Espresso, une application de pointe pour la simulation des matériaux. Grâce à cette importante mémoire dédiée et à une bande passante mémoire ultra-rapide, le GPU A100 à 80 Go est la plateforme idéale pour les charges de travail de nouvelle génération.

Performances HPC accélérées par 11 fois en quatre ans

Rendement dans les principales applications HPC​

Performances HPC accélérées par 11 fois en quatre ans

Performances jusqu’à 1,8 fois plus élevées dans les applications HPC

Quantum Espresso​

Performances jusqu’à 1,8 fois plus élevées dans les applications HPC

Analyse de données à hautes performances

Performances jusqu’à 83 fois plus rapides (CPU) et 2 fois plus rapides (système A100 40 Go) sur les benchmarks d’analyse Big Data

Performances jusqu’à 83 fois plus rapides (CPU) et 2 fois plus rapides (système A100 40 Go) sur les benchmarks d’analyse Big Data

Les data scientists doivent pouvoir analyser, visualiser et transformer leurs jeux de données en ressources exploitables avec un maximum d’efficacité. Les solutions Scale-Out existantes tendent malheureusement à ralentir le rendement car les jeux de données sont hébergés sur plusieurs serveurs.

Avec une importante mémoire dédiée et une bande passante ultraperformante qui s’élève à 2 téraoctets par seconde (To/s), sans oublier des capacités d’évolutivité incomparables grâce aux technologies NVIDIA® NVLink® et NVSwitch, les serveurs accélérés par les GPU A100 fournissent la puissance de calcul requise pour traiter les charges de travail les plus intenses. Associée à la technologie InfiniBand, au SDK NVIDIA Magnum IO et à la suite de bibliothèques logicielles open-source RAPIDS (qui inclut le module d’accélération RAPIDS pour l’analyse de données sur GPU avec Spark), la nouvelle plateforme pour Data Center de NVIDIA a été spécialement conçue pour accélérer vos workflows de manière significative avec des performances et une efficacité sans précédent.

Sur un benchmark d’analyse Big Data, un GPU A100 à 80 Go est en mesure de fournir un rendement jusqu’à 83 fois plus élevé qu’avec le traitement CPU et jusqu’à 2 fois plus élevé qu’avec un GPU A100 à 40 Go, ce qui permet de traiter les charges de travail émergentes avec des volumes de données sans cesse plus conséquents.

Conçu pour une utilisation en entreprise

Rendement d’inférence 7 fois plus élevé avec MIG (GPU multi-instances)

Inférence avec BERT Large

Rendement d’inférence 7 fois plus élevé avec MIG (GPU multi-instances)

A100 et la technologie de GPU multi-instances (MIG) maximisent comme jamais l’utilisation des infrastructures accélérées par GPU. MIG permet de partitionner un GPU A100 en sept instances distinctes de manière sécurisée, permettant ainsi à de multiples utilisateurs d'accéder à tous les avantages de l’accélération GPU. Avec un GPU A100 à 40 Go, chaque instance MIG peut disposer d’une mémoire dédiée de 5 Go. Avec un GPU A100 à 80 Go, la capacité de mémoire passe à 10 Go.

Entièrement compatible avec la plateforme Kubernetes, les systèmes de conteneurs et les solutions de virtualisation de serveur basées sur un hyperviseur, la technologie MIG permet aux gestionnaires d’infrastructure de mettre en œuvre des GPU parfaitement calibrés pour chaque tâche avec une qualité de service optimale, ce qui simplifie l’accès aux ressources de calcul pour tous les utilisateurs.

Exploitez le plein potentiel de vos systèmes

Un système NVIDIA certifié, qui repose sur un GPU A100 ainsi que des cartes SmartnNIC et des DPU de NVIDIA Mellanox ayant été validés pour fournir un maximum de performance, de fonctionnalité, de sécurité et d’évolutivité, permet aux entreprises de déployer en toute confiance des solutions avancées pour exécuter des charges de travail d’IA à partir du catalogue NVIDIA NGC™.

GPU pour Data Center

NVIDIA A100 pour HGX

NVIDIA A100 pour HGX

Performances ultimes pour toutes les charges de travail.

NVIDIA A100 pour PCIe

NVIDIA A100 pour PCIe

Polyvalence maximale pour toutes les charges de travail.

Spécifications

  A100 80 Go PCIe A100 80 Go SXM
FP64 9,7 TFlops
FP64 Tensor Core 19,5 TFlops
FP32 19,5 TFlops
Tensor Float 32 (TF32) 156 TFlops | 312 TFlops*
BFLOAT16 Tensor Core 312 TFlops | 624 TFlops*
FP16 Tensor Core 312 TFlops | 624 TFlops*
INT8 Tensor Core 624 TOPs | 1248 TOPs*
Mémoire GPU 80 Go HBM2e 80 Go HBM2e
Bande passante GPU 1935 Go/s 2039 Go/s
Enveloppe thermique (TDP) 300 W 400 W***
GPU multi-instances Jusqu’à 7 instances MIG à 10 Go Jusqu’à 7 instances MIG à 10 Go
Configuration PCIe
Refroidissement par air Dual-slot ou refroidissement liquide Single-slot
SXM
Interface d'interconnexion Pont NVIDIA® NVLink®
pour 2 GPU : 600 Go/s**
PCIe Gen4 : 64 Go/s
NVLink : 600 Go/s
PCIe Gen4 : 64 Go/s
Options de serveur Systèmes partenaires et systèmes NVIDIA certifiés™ avec de 1 à 8 GPU Systèmes partenaires NVIDIA HGX™ A100, systèmes NVIDIA certifiés™ avec 4, 8 ou 16 GPU et NVIDIA DGX™ A100 avec 8 GPU
 

Consultez les nouvelles données de benchmark MLPerf

Aperçu de l’architecture NVIDIA Ampere

Découvrez les nouveautés de l’architecture NVIDIA Ampere ainsi que son intégration dans le GPU NVIDIA A100.