GPU NVIDIA A100 Tensor Core

Accélération sans précédent à tous les niveaux

Accélérez les plus importants projets de notre époque

Spécifiquement conçu pour les applications d’intelligence artificielle (IA), d’analyse de données et de calcul haute performance (HPC), le GPU NVIDIA A100 Tensor Core offre des capacités d’accélération sans précédent à tous les niveaux afin de répondre aux exigences des Data Centers élastiques les plus puissants au monde. Basé sur l’architecture NVIDIA Ampere à hautes performances, le GPU A100 est le moteur de la nouvelle plateforme de NVIDIA pour les Data Centers. NVIDIA A100, disponible avec une mémoire dédiée de 40 Go ou de 80 Go, fournit des performances jusqu’à 20 fois plus élevées par rapport aux produits de génération précédente. Vous pouvez le partitionner en sept instances de GPU pour l’adapter de manière dynamique à toutes vos charges de travail. Le GPU A100 à 80 Go dispose de la bande passante mémoire la plus rapide de l’industrie (plus de 2 téraoctets par seconde), ce qui lui permet de prendre en charge des modèles et des jeux de données d’une très grande complexité.

La plateforme pour Data Center de bout en bout la plus puissante au monde pour l’IA et le HPC

Les GPU A100 sont des composants essentiels de la pile de solutions NVIDIA pour Data Center, regroupant un ensemble complet de solutions matérielles et logicielles, de systèmes de mise en réseau, de bibliothèques, de modèles d’IA et d’applications optimisées par NGC. Dédiée à l’IA et au HPC, cette plateforme de bout en bout pour Data Center est la plus puissante du marché. Les chercheurs du monde entier peuvent ainsi aboutir plus rapidement à des résultats concrets et déployer des solutions de production hautement évolutives.

 

Making-of de l’architecture Ampere

Entraînement Deep Learning

Entraînement jusqu’à 3 fois plus rapide avec les modèles les plus complexes

Entraînement DLRM

Up to 3X Higher AI Training on Largest Models

Les modèles d’IA gagnent en complexité alors que surgissent de nouveaux défis tels que la conception d’applications d’IA conversationnelle à hautes performances. Leur entraînement requiert une puissance de calcul massive ainsi qu’une importante évolutivité.

Les cœurs Tensor des GPU A100 ainsi que leurs capacités de calcul de niveau TF32 (Tensor Float 32) vous offrent, sans changement du code-source, des performances jusqu’à 20 fois plus élevées par rapport aux GPU NVIDIA Volta et un rendement doublé grâce à la technologie NVIDIA de précision mixte automatique ainsi qu’à la prise en charge des calculs FP16. Mais ce n’est pas tout : l’association des technologies NVIDIA® NVLink®et NVIDIA NVSwitch, PCI Gen4, NVIDIA® Mellanox® InfiniBand® et du kit de développement logiciel NVIDIA Magnum IO vous permet d’interconnecter plusieurs milliers de GPU A100 pour bénéficier d’une puissance de calcul phénoménale.

Cela signifie que des charges de travail d’entraînement basées sur des modèles de langage comme BERT peuvent être traitées en moins d'une minute sur un cluster composé de 2 048 GPU A100, vous offrant une réduction significative des délais d’exécution. 

Avec des modèles complexes dotés de tables de données massives, tels que les modèles de recommandation pour le Deep Learning (DLRM), un GPU A100 à 80 Go peut mettre en œuvre jusqu’à 1,3 To de mémoire unifiée et fournir un rendement jusqu’à 3 fois plus élevé par rapport au GPU A100 à 40 Go.

NVIDIA a démontré son leadership en enregistrant des performances record dans MLPerf, le premier benchmark d’IA pour l’entraînement à faire autorité dans toute l’industrie.

Inférence Deep Learning

Le GPU A100 comporte des fonctionnalités révolutionnaires qui optimisent les charges de travail d’inférence. Il délivre par ailleurs une polyvalence sans précédent qui permet d’améliorer les performances de calcul à tous les niveaux de précision (de FP32 à INT4). La technologie de GPU multi-instances (MIG), qui permet à plusieurs réseaux de fonctionner en simultané sur un seul GPU A100, offre quant à elle une utilisation optimale des ressources de calcul. La technologie de dispersion structurelle fournit près de 2 fois plus de performances de calcul ainsi que de nombreux gains de performance pour l'inférence.

Avec des modèles d’IA conversationnelle de pointe comme BERT, le GPU A100 accélère jusqu’à 249 fois le débit des inférences par rapport aux configurations basées sur le traitement CPU.

Et pour les modèles plus complexes contraints par des spécifications de batch (tels que RNN-T pour la reconnaissance vocale automatique), la capacité de mémoire accrue du GPU A100 à 80 Go permet de doubler la taille de chaque instance MIG afin d’offrir un rendement jusqu’à 1,25 fois plus élevé qu’avec un GPU A100 à 40 Go.

NVIDIA fournit déjà des performances d’inférence à la pointe de l’industrie, comme l’illustrent les scores enregistrés dans le benchmark MLPerf Inference. Aujourd'hui, le GPU A100 contribue à consolider ce leadership en délivrant près de 20 fois plus de performances.

Performances d’inférence IA jusqu’à 249 fois plus élevées
par rapport au traitement CPU

Inférence à grande échelle avec BERT

Up to 249X Higher AI Inference Performance  Over CPUs

Performances d’inférence IA jusqu’à 1,25 fois plus élevées
par rapport au GPU A100 à 40 Go

Inférence RNN-T : flux unique

Up to 1.25X Higher AI Inference Performance  Over A100 40GB

Calcul haute performance

Pour réaliser de nouvelles découvertes scientifiques, les chercheurs ont aujourd’hui recours à des simulations avancées qui les aident à mieux comprendre le monde qui nous entoure.

Avec ses cœurs Tensor de calcul en double précision, NVIDIA A100 constitue l’avancée technologique la plus importante depuis la mise en œuvre des GPU pour le calcul haute performance. Grâce à 80 Go de mémoire GPU ultra-rapide, les chercheurs peuvent faire aboutir en moins de quatre heures un projet de simulation en double précision qui aurait auparavant nécessité une dizaine d’heures. Les applications HPC peuvent désormais profiter des capacités de calcul TF32 du GPU A100 pour accélérer jusqu’à onze fois les opérations de multiplication matricielle en simple précision.

Et pour les applications HPC avec des jeux de données encore plus volumineux, la mémoire additionnelle du GPU A100 à 80Go offre un rendement jusqu’à 2 fois plus élevé avec Quantum Espresso, une application de pointe pour la simulation des matériaux. Grâce à cette importante mémoire dédiée et à une bande passante mémoire ultra-rapide, le GPU A100 à 80 Go est la plateforme idéale pour les charges de travail de nouvelle génération.

Performances HPC accélérées par 11 fois en quatre ans

Rendement dans les principales applications HPC​

11X More HPC Performance  in Four Years

Performances jusqu’à 1,8 fois plus élevées dans les applications HPC

Quantum Espresso​

Up to 1.8X Higher Performance  for HPC Applications

Analyse de données à hautes performances

Performances jusqu’à 83 fois plus rapides (CPU) et 2 fois plus rapides (système A100 40 Go) sur les benchmarks d’analyse Big Data

Up to 83X Faster than CPU, 2X Faster than A100 40GB on Big Data Analytics Benchmark

Les data scientists doivent pouvoir analyser, visualiser et transformer leurs jeux de données en ressources exploitables avec un maximum d’efficacité. Les solutions Scale-Out existantes tendent malheureusement à ralentir le rendement car les jeux de données sont hébergés sur plusieurs serveurs. 

Avec une importante mémoire dédiée et une bande passante ultraperformante qui s’élève à 2 téraoctets par seconde (To/s), sans oublier des capacités d’évolutivité incomparables grâce aux technologies NVIDIA® NVLink® and NVSwitch, les serveurs accélérés par les GPU A100 fournissent la puissance de calcul requise pour traiter les charges de travail les plus intenses. Associée à la technologie InfiniBand, au NVIDIA Magnum IO et à la suite de bibliothèques logicielles open-source NVIDIA RAPIDS (qui inclut le module d’accélération RAPIDS pour l’analyse de données sur GPU avec Spark), la nouvelle plateforme pour Data Center de NVIDIA a été spécialement conçue pour accélérer vos workflows de manière significative avec des performances et une efficacité sans précédent.

Sur un benchmark d’analyse Big Data, un GPU A100 à 80 Go est en mesure de fournir un rendement jusqu’à 83 fois plus élevé qu’avec le traitement CPU et jusqu’à 2 fois plus élevé qu’avec un GPU A100 à 40 Go, ce qui permet de traiter les charges de travail émergentes avec des volumes de données sans cesse plus conséquents. 

Conçu pour une utilisation en entreprise

Rendement d’inférence 7 fois plus élevé avec MIG (GPU multi-instances)

Inférence à grande échelle avec BERT

7X Higher Inference Throughput with Multi-Instance GPU (MIG)

A100 et la technologie de GPU multi-instances (MIG) maximisent comme jamais l’utilisation des infrastructures accélérées par GPU. MIG permet de partitionner un GPU A100 en sept instances distinctes de manière sécurisée, permettant ainsi à de multiples utilisateurs d'accéder à tous les avantages de l’accélération GPU. Avec un GPU A100 à 40 Go, chaque instance MIG peut disposer d’une mémoire dédiée de 5 Go. Avec un GPU A100 à 80 Go, la capacité de mémoire passe à 10 Go.

Entièrement compatible avec la plateforme Kubernetes, les systèmes de conteneurs et les solutions de virtualisation de serveur basées sur un hyperviseur, la technologie MIG permet aux gestionnaires d’infrastructure de mettre en œuvre des GPU parfaitement calibrés pour chaque tâche avec une qualité de service optimale, ce qui simplifie l’accès aux ressources de calcul pour tous les utilisateurs.

Exploitez le plein potentiel de vos systèmes

Un système NVIDIA certifié, qui repose sur un GPU A100 ainsi que des cartes SmartnNIC et des DPU de NVIDIA Mellanox ayant été validés pour fournir un maximum de performance, de fonctionnalité, de sécurité et d’évolutivité, permet aux entreprises de déployer en toute confiance des solutions avancées pour exécuter des charges de travail d’IA à partir du catalogue NVIDIA NGC™.

GPU pour Data Center

NVIDIA A100 pour HGX

NVIDIA A100 pour HGX

Performances ultimes pour toutes les charges de travail.

NVIDIA A100 pour PCIe

NVIDIA A100 pour PCIe

Polyvalence maximale pour toutes les charges de travail.

Spécifications

  NVIDIA A100 pour NVLink NVIDIA A100 pour PCIe
Performances maximales FP64 9,7 TF 9,7 TF
Performances maximales FP64 Tensor Core 19,5 TF 19,5 TF
Performances maximales FP32 19,5 TF 19,5 TF
Tensor Float 32 (TF32) 156 TF | 312 TF* 156 TF | 312 TF*
Performances maximales bfloat16 Tensor Core 312 TF | 624 TF* 312 TF | 624 TF*
Performances maximales FP16 Tensor Core 312 TF | 624 TF* 312 TF | 624 TF*
Performances maximales INT8 Tensor Core 624 TOPs | 1 248 TOPs* 624 TOPs | 1 248 TOPs*
Performances maximales INT4 Tensor Core 1 248 TOPs | 2 496 TOPs* 1 248 TOPs | 2 496 TOPs*
Mémoire GPU 40 Go 80 Go 40 Go
Bande passante GPU 1 555 Go/s 2 039 Go/s 1 555 Go/s
Interface d'interconnexion NVIDIA NVLink 600 Go/s**
PCIe Gen4 64 Go/s
NVIDIA NVLink 600 Go/s**
PCIe Gen4 64 Go/s
GPU multi-instances Différentes tailles d'instance avec jusqu'à 7 MIG @ 10 Go Différentes tailles d'instance avec jusqu'à 7 MIG @ 5 Go
Configuration 4/8 SXM sur NVIDIA HGX A100 PCIe
Consommation TDP max 400 W 400 W 250 W
 

Aperçu de l’architecture NVIDIA Ampere

Découvrez les nouveautés de l'architecture NVIDIA Ampere ainsi que son intégration dans le GPU NVIDIA A100.