This site requires Javascript in order to view all its content. Please enable Javascript in order to access all the functionality of this web site. Here are the instructions how to enable JavaScript in your web browser.

GPU NVIDIA A100 Tensor Core

Accélération sans précédent à tous les niveaux

Accélérez les plus importants projets de notre époque

Le GPU NVIDIA A100 Tensor Core offre des capacités d’accélération sans précédent à tous les niveaux afin d’alimenter les Data Centers élastiques les plus puissants au monde dans les domaines de l’IA, de l’analyse de données et du HPC. Basé sur l’architecture NVIDIA Ampere, l’A100 est le moteur de la nouvelle plateforme de NVIDIA pour les Data Centers. L’A100 offre des performances jusqu’à 20 fois plus élevées que celles de la génération précédente et peut être partitionné en sept instances de GPU pour s’adapter de manière dynamique à l’évolution des demandes. L’A100 80 Go inaugure la bande passante mémoire la plus rapide au monde, à plus de 2 téraoctets par seconde (TB/s), pour exécuter les plus grands modèles et jeux de données.

Lire la fiche technique du NVIDIA A100 (PDF ; 640 Ko)

Lire la fiche produit du NVIDIA A100 80 Go PCIe (PDF ; 380 Ko)

Lire la fiche produit du NVIDIA A100 40 Go PCIe (PDF ; 332 Ko)

Logiciels d’IA adaptés aux entreprises

La plateforme NVIDIA EGX^™ centralise des logiciels optimisés offrant une accélération significative du calcul informatique sur l’ensemble de l’infrastructure. NVIDIA AI Enterprise est une suite logicielle d’IA et d’analyse de données de bout en bout native pour le Cloud spécialement optimisée, certifiée et prise en charge par NVIDIA pour une exécution sur VMware vSphere avec les systèmes NVIDIA certifiés. Elle inclut des technologies essentielles de NVIDIA qui permettent aux entreprises de déployer, gérer et faire évoluer rapidement leurs charges de travail d’IA sur les Clouds hybrides modernes.

La plateforme pour Data Center de bout en bout la plus puissante au monde pour l’IA et le HPC

Les GPU A100 sont des composants essentiels de la solution de NVIDIA pour Data Center, regroupant un ensemble complet de solutions matérielles et logicielles, de systèmes de mise en réseau, de bibliothèques, de modèles d’IA et d’applications optimisées par NGC^™. Dédiée à l’IA et au HPC, cette plateforme de bout en bout pour Data Center est la plus puissante du marché. Les chercheurs du monde entier peuvent ainsi aboutir plus rapidement à des résultats concrets et déployer des solutions de production hautement évolutives.

Making-of de l’architecture Ampere

VOIR LA VIDÉO

Entraînement Deep Learning

Entraînement jusqu’à 3 fois plus rapide avec les modèles les plus complexes

Entraînement DLRM

DLRM on HugeCTR framework, precision = FP16 | NVIDIA A100 80GB batch size = 48 | NVIDIA A100 40GB batch size = 32 | NVIDIA V100 32GB batch size = 32.

Les modèles d’IA gagnent en complexité alors que surgissent de nouveaux défis tels que la conception d’applications d’IA conversationnelle à hautes performances. Leur entraînement requiert une puissance de calcul massive ainsi qu’une importante évolutivité.

Les cœurs Tensor des GPU A100 ainsi que leurs capacités de calcul de niveau TF32 (Tensor Float 32) vous offrent, sans changement du code-source, des performances jusqu’à 20 fois plus élevées par rapport aux GPU NVIDIA Volta et un rendement doublé grâce à la technologie NVIDIA de précision mixte automatique ainsi qu’à la prise en charge des calculs FP16. Mais ce n’est pas tout : l’association des technologies NVIDIA^® NVLink^® et NVIDIA NVSwitch^™, de la norme PCI Gen4, de NVIDIA^® Mellanox^® InfiniBand^® et du kit de développement logiciel NVIDIA Magnum IO^™ vous permet d’interconnecter plusieurs milliers de GPU A100 pour bénéficier d’une puissance de calcul phénoménale.

Cela signifie que des charges de travail d’entraînement basées sur des modèles de langage comme BERT peuvent être traitées en moins d'une minute sur un cluster composé de 2 048 GPU A100, vous offrant une réduction significative des délais d’exécution.

Avec des modèles complexes dotés de tables de données massives, tels que les modèles de recommandation pour le Deep Learning (DLRM), un GPU A100 à 80 Go peut mettre en œuvre jusqu’à 1,3 To de mémoire unifiée et fournir un rendement jusqu’à 3 fois plus élevé par rapport au GPU A100 à 40 Go.

NVIDIA a démontré son leadership en enregistrant des performances record dans MLPerf, le premier benchmark d’IA pour l’entraînement à faire autorité dans toute l’industrie.

En savoir plus sur A100 pour l’entraînement

Inférence Deep Learning

Le GPU A100 comporte des fonctionnalités révolutionnaires qui optimisent les charges de travail d’inférence. Il délivre par ailleurs une polyvalence sans précédent qui permet d’améliorer les performances de calcul à tous les niveaux de précision (de FP32 à INT4). La technologie de GPU multi-instances (MIG), qui permet à plusieurs réseaux de fonctionner en simultané sur un seul GPU A100, offre quant à elle une utilisation optimale des ressources de calcul. La technologie de dispersion structurelle fournit près de 2 fois plus de performances de calcul ainsi que de nombreux gains de performance pour l'inférence.

Avec des modèles d’IA conversationnelle de pointe comme BERT, le GPU A100 accélère jusqu’à 249 fois le débit des inférences par rapport aux configurations basées sur le traitement CPU.

Et pour les modèles plus complexes contraints par des spécifications de batch (tels que RNN-T pour la reconnaissance vocale automatique), la capacité de mémoire accrue du GPU A100 à 80 Go permet de doubler la taille de chaque instance MIG afin d’offrir un rendement jusqu’à 1,25 fois plus élevé qu’avec un GPU A100 à 40 Go.

NVIDIA fournit déjà des performances d’inférence à la pointe de l’industrie, comme l’illustrent les scores enregistrés dans le benchmark MLPerf Inference. Aujourd'hui, le GPU A100 contribue à consolider ce leadership en délivrant près de 20 fois plus de performances.

En savoir plus sur A100 pour l’inférence

Performances d’inférence IA jusqu’à 249 fois
plus élevées par rapport au traitement CPU

Inférence à grande échelle avec BERT

BERT-Large Inference | CPU only: Xeon Gold 6240 @ 2.60 GHz, precision = FP32, batch size = 128 | V100 : NVIDIA TensorRT^™ (TRT) 7.2, precision = INT8, batch size = 256 | A100 40GB and 80GB, batch size = 256, precision = INT8 avec dispersion.

Performances d’inférence IA jusqu’à 1,25 fois
plus élevées par rapport au GPU A100 à 40 Go

Inférence RNN-T : flux unique

MLPerf 0.7 RNN-T measured with (1/7) MIG slices. Framework: TensorRT 7.2, dataset = LibriSpeech, precision = FP16.

Calcul haute performance

Pour réaliser de nouvelles découvertes scientifiques, les chercheurs ont aujourd’hui recours à des simulations avancées qui les aident à mieux comprendre le monde qui nous entoure.

Avec ses cœurs Tensor de calcul en double précision, NVIDIA A100 constitue l’avancée technologique la plus importante depuis la mise en œuvre des GPU pour le calcul haute performance. Grâce à 80 Go de mémoire GPU ultra-rapide, les chercheurs peuvent faire aboutir en moins de quatre heures un projet de simulation en double précision qui aurait auparavant nécessité une dizaine d’heures. Les applications HPC peuvent désormais profiter des capacités de calcul TF32 du GPU A100 pour accélérer jusqu’à onze fois les opérations de multiplication matricielle en simple précision.

Et pour les applications HPC avec des jeux de données encore plus volumineux, la mémoire additionnelle du GPU A100 à 80Go offre un rendement jusqu’à 2 fois plus élevé avec Quantum Espresso, une application de pointe pour la simulation des matériaux. Grâce à cette importante mémoire dédiée et à une bande passante mémoire ultra-rapide, le GPU A100 à 80 Go est la plateforme idéale pour les charges de travail de nouvelle génération.

En savoir plus sur A100 pour le calcul haute performance

Performances HPC accélérées par 11 fois en quatre ans

Rendement dans les principales applications HPC

Moyenne géométrique de l’accélération des applications par rapport à P100 - Applications pour benchmark : Amber [PME-Cellulose_NVE], Chroma [szscl21_24_128], GROMACS [ADH Dodec], MILC [Apex Medium], NAMD [stmv_nve_cuda], PyTorch (BERT-Large Fine Tuner], Quantum Espresso [AUSURF112-jR]; Random Forest FP32 [make_blobs (160000 x 64 : 10)], TensorFlow [ResNet-50], VASP 6 [Si Huge] | Nœud GPU avec CPU dual-socket et quatre GPU NVIDIA P100, V100 ou A100.

Performances jusqu’à 1,8 fois plus élevées dans les applications HPC

Quantum Espresso

Quantum Espresso measured using CNT10POR8 dataset, precision = FP64.

Analyse de données à hautes performances

Performances jusqu’à 83 fois plus rapides (CPU) et 2 fois plus rapides (système A100 40 Go) sur les benchmarks d’analyse Big Data

Benchmark d’analyse Big Data | 30 requêtes d’analyse commerciale avec des jeux de données ETL, ML et NLP à 10 To | CPU : Intel Xeon Gold 6252 à 2,10 GHz, Hadoop | V100 32 Go, RAPIDS/Dask | A100 40 Go et A100 80 Go, RAPIDS/Dask/BlazingSQL

Les data scientists doivent pouvoir analyser, visualiser et transformer leurs jeux de données en ressources exploitables avec un maximum d’efficacité. Les solutions Scale-Out existantes tendent malheureusement à ralentir le rendement car les jeux de données sont hébergés sur plusieurs serveurs.

Avec une importante mémoire dédiée et une bande passante ultraperformante qui s’élève à 2 téraoctets par seconde (To/s), sans oublier des capacités d’évolutivité incomparables grâce aux technologies NVIDIA^® NVLink^® et NVSwitch^™, les serveurs accélérés par les GPU A100 fournissent la puissance de calcul requise pour traiter les charges de travail les plus intenses. Associée à la technologie InfiniBand, au SDK NVIDIA Magnum IO^™ et à la suite de bibliothèques logicielles open-source RAPIDS^™ (qui inclut le module d’accélération RAPIDS pour l’analyse de données sur GPU avec Spark), la nouvelle plateforme pour Data Center de NVIDIA a été spécialement conçue pour accélérer vos workflows de manière significative avec des performances et une efficacité sans précédent.

Sur un benchmark d’analyse Big Data, un GPU A100 à 80 Go est en mesure de fournir un rendement jusqu’à 83 fois plus élevé qu’avec le traitement CPU et jusqu’à 2 fois plus élevé qu’avec un GPU A100 à 40 Go, ce qui permet de traiter les charges de travail émergentes avec des volumes de données sans cesse plus conséquents.

En savoir plus sur l’analyse de données

Conçu pour une utilisation en entreprise

Rendement d’inférence 7 fois plus élevé avec MIG (GPU multi-instances)

Inférence avec BERT Large

Inférence à grande échelle avec BERT | NVIDIA TensorRT^™ (TRT) 7.1 | NVIDIA T4 Tensor Core GPU: TRT 7.1, precision = INT8, batch size = 256 | V100: TRT 7.1, precision = FP16, batch size = 256 | A100 with 1 or 7 MIG instances of 1g.5gb: batch size = 94, precision = INT8 avec dispersion.

A100 et la technologie de GPU multi-instances (MIG) maximisent comme jamais l’utilisation des infrastructures accélérées par GPU. MIG permet de partitionner un GPU A100 en sept instances distinctes de manière sécurisée, permettant ainsi à de multiples utilisateurs d'accéder à tous les avantages de l’accélération GPU. Avec un GPU A100 à 40 Go, chaque instance MIG peut disposer d’une mémoire dédiée de 5 Go. Avec un GPU A100 à 80 Go, la capacité de mémoire passe à 10 Go.

Entièrement compatible avec la plateforme Kubernetes, les systèmes de conteneurs et les solutions de virtualisation de serveur basées sur un hyperviseur, la technologie MIG permet aux gestionnaires d’infrastructure de mettre en œuvre des GPU parfaitement calibrés pour chaque tâche avec une qualité de service optimale, ce qui simplifie l’accès aux ressources de calcul pour tous les utilisateurs.

En savoir plus sur MIG

Exploitez le plein potentiel de vos systèmes

Un système NVIDIA certifié, qui repose sur un GPU A100 ainsi que des cartes SmartnNIC et des DPU de NVIDIA Mellanox ayant été validés pour fournir un maximum de performance, de fonctionnalité, de sécurité et d’évolutivité, permet aux entreprises de déployer en toute confiance des solutions avancées pour exécuter des charges de travail d’IA à partir du catalogue NVIDIA NGC™.

GPU pour Data Center

NVIDIA A100 pour HGX

Performances ultimes pour toutes les charges de travail.

NVIDIA A100 pour PCIe

Polyvalence maximale pour toutes les charges de travail.

Spécifications

	A100 80 Go PCIe	A100 80 Go SXM
FP64	9,7 TFlops
FP64 Tensor Core	19,5 TFlops
FP32	19,5 TFlops
Tensor Float 32 (TF32)	156 TFlops \| 312 TFlops*
BFLOAT16 Tensor Core	312 TFlops \| 624 TFlops*
FP16 Tensor Core	312 TFlops \| 624 TFlops*
INT8 Tensor Core	624 TOPs \| 1248 TOPs*
Mémoire GPU	80 Go HBM2e	80 Go HBM2e
Bande passante GPU	1935 Go/s	2039 Go/s
Enveloppe thermique (TDP)	300 W	400 W***
GPU multi-instances	Jusqu’à 7 instances MIG à 10 Go	Jusqu’à 7 instances MIG à 10 Go
Configuration	PCIe Refroidissement par air Dual-slot ou refroidissement liquide Single-slot	SXM
Interface d'interconnexion	Pont NVIDIA^® NVLink^® pour 2 GPU : 600 Go/s** PCIe Gen4 : 64 Go/s	NVLink : 600 Go/s PCIe Gen4 : 64 Go/s
Options de serveur	Systèmes partenaires et systèmes NVIDIA certifiés™ avec de 1 à 8 GPU	Systèmes partenaires NVIDIA HGX™ A100, systèmes NVIDIA certifiés™ avec 4, 8 ou 16 GPU et NVIDIA DGX™ A100 avec 8 GPU

* Avec dispersion
** GPU SXM4 via cartes de serveur HGX A100 ; GPU PCIe via pont NVLink avec jusqu’à 2 GPU
*** TDP : 400 W pour la configuration standard. La solution thermique personnalisée (CTS) du HGX A100 80 Go peut prendre en charge une enveloppe thermique maximale de 500 W.

Consultez les nouvelles données de benchmark MLPerf

Voir les résultats

Aperçu de l’architecture NVIDIA Ampere

Découvrez les nouveautés de l’architecture NVIDIA Ampere ainsi que son intégration dans le GPU NVIDIA A100.

Lire le livre blanc