This site requires Javascript in order to view all its content. Please enable Javascript in order to access all the functionality of this web site. Here are the instructions how to enable JavaScript in your web browser.

GPU NVIDIA A100 Tensor Core

Aceleração sem precedentes em todas as escalas

Acelerando o Trabalho Mais Importante do Nosso Tempo

A GPU NVIDIA A100 Tensor Core oferece aceleração sem precedentes em todas as escalas para alimentar os data centers elásticos de maior desempenho do mundo para AI, análise de dados e HPC. Equipado com a Arquitetura NVIDIA Ampere, a A100 é o motor da plataforma de data center da NVIDIA. A A100 oferece desempenho até 20 vezes maior em relação à geração anterior e pode ser particionada em até sete instâncias de GPU para se ajustar dinamicamente às demandas variáveis. Disponível em versões de memória de 40GB e 80GB, a A100 80GB apresenta a largura de banda de memória mais rápida do mundo com mais de 2 terabytes por segundo (TB/s) para executar os maiores modelos e conjuntos de dados.

Datasheet NVIDIA A100 (PDF 612 KB)

Resumo Técnico da A100 80GB PCIe (PDF 380 KB)

Resumo Técnico da A100 40GB PCIe (PDF 332 KB)

Software Corporativo Pronto para AI

A plataforma NVIDIA EGX™ inclui software otimizado que oferece computação acelerada em toda a infraestrutura. Com o NVIDIA AI Enterprise, as empresas podem acessar um conjunto de ponta a ponta, nativo do cloud de AI e software de análise de dados que é otimizado, certificado e suportado pela NVIDIA para rodar em VMware vSphere com os Sistemas Certificados pela NVIDIA. NVIDIA AI Enterprise inclui tecnologias essenciais da NVIDIA para rápida implantação, gerenciamento e escalonamento de cargas de trabalho de IA no cloud híbrido moderno.

Saiba Mais

A Mais Poderosa e Completa Plataforma de Data Centers de AI e HPC

A A100 faz parte da solução completa de datacenter da NVIDIA, que incorpora elementos básicos de hardware, rede, software, bibliotecas e modelos e aplicações de AI otimizados da NGC^™. Representando a plataforma completa de AI e HPC mais poderosa para data centers, ela permite que os pesquisadores entreguem resultados reais e implementem soluções na produção em escala.

Making of Ampere Video

WATCH VIDEO

TREINAMENTO EM DEEP LEARNING

Desempenho até 3 Vezes Maior em Modelos Grandes

Treinamento DLRM

DLRM no framework HugeCTR, precisão = FP16 | NVIDIA A100 80GB tamanho do lote = 48 | NVIDIA A100 40 GB tamanho do lote = 32 | NVIDIA V100 tamanho de lote de 32GB = 32.

Os modelos de AI estão cada vez mais complexos à medida que enfrentam desafios de próximo nível, como a AI de conversação. Treiná-los requer enorme poder de computação e escalabilidade.

Os NVIDIA A100 Tensor Cores com Tensor Float (TF32) fornecem desempenho até 20 vezes maior sobre o NVIDIA Volta com zero alterações de código e um aumento adicional de 2 vezes com precisão mista automática e FP16. Quando combinado com o NVIDIA^® NVLink^®, NVIDIA NVSwitch^™, PCI Gen4, NVIDIA^® Mellanox^® InfiniBand^® e o NVIDIA Magnum IO^™ SDK, é possível escalar para milhares de GPUs A100.

Uma carga de trabalho de treinamento como o BERT pode ser resolvida em escala em menos de um minuto por 2.048 GPUs A100, um recorde mundial de tempo para solução.

Para os modelos maiores com tabelas de dados massivas, como modelos de recomendação de deep learning (DLRM), a A100 80GB atinge até 1,3TB de memória unificada por nó e oferece um aumento de rendimento de até 3 vezes em relação à A100 40GB.

A liderança da NVIDIA no MLPerf estabeleceu múltiplos recordes de desempenho no benchmark de toda a indústria para treinamento de AI.

Saiba Mais Sobre a A100 Para Treinamento

Inferência Em Deep Learning

A A100 apresenta recursos inovadores para otimizar as cargas de trabalho de inferência. Ela acelera uma gama completa de precisões, do FP32 ao INT4. A tecnologia GPU Multi-Instâncias (MIG) permite que várias redes operem simultaneamente em uma única GPU A100 para utilização otimizada dos recursos de computação. E o suporte à escassez estrutural oferece até 2 vezes mais desempenho, além dos outros ganhos de desempenho de inferência do A100.

Em modelos de conversação de AI de última geração, como o BERT, a A100 acelera a taxa de transferência de inferência em até 249 vezes sobre as CPUs.

Nos modelos mais complexos com tamanho de lote restrito, como o RNN-T para reconhecimento automático de fala, a capacidade de memória ampliada da A100 80GB dobra o tamanho de cada MIG e oferece uma taxa de transferência até 1,25 vezes maior em relação à A100 40GB.

O desempenho líder de mercado da NVIDIA foi demonstrado na Inferência do MLPerf. A A100 traz 20 vezes mais desempenho para ampliar ainda mais essa liderança.

Saiba Mais Sobre a A100 Para Inferência

Desempenho de Inferência de AI Até 249 Vezes Superior em Relação às CPUs

Inferência BERT-LARGE

Inferência BERT-LARGE | Apenas CPU: Xeon Gold 6240 @ 2,60 GHz, precisão = FP32, tamanho do lote = 128 | V100: NVIDIA TensorRT^™ (TRT) 7.2, precisão = INT8, tamanho do lote = 256 | A100 40GB e 80GB, tamanho do lote = 256, precisão = INT8 com dispersão.

Desempenho de Inferência AI até 1,25 Vezes Superior em Relação à A100 40GB

Inferência RNN-T: Fluxo Único

MLPerf 0,7 RNN-T medido com fatias MIG (1/7). Estrutura: TensorRT 7.2, conjunto de dados = LibriSpeech, precisão = FP16.

Computação de Alto Desempenho

Para desbloquear as descobertas da próxima geração, os cientistas procuram simulações para entender melhor o mundo ao nosso redor.

A NVIDIA A100 apresenta Tensor Cores de dupla precisão para oferecer o maior salto em desempenho de HPC desde a introdução de GPUs. Combinado com 80GB da memória de GPU mais rápida, os pesquisadores podem reduzir uma simulação de precisão dupla de 10 horas para menos de quatro horas na A100. As aplicações de HPC também podem aproveitar o TF32 para alcançar um rendimento até 11 vezes maior para operações densas de multiplicação de matriz de precisão única.

Para as aplicações de HPC com os maiores conjuntos de dados, a memória adicional da A100 80GB oferece um aumento de rendimento de até 2 vezes com Quantum Espresso, uma simulação de materiais. Esta memória massiva e largura de banda de memória sem precedentes tornam a A100 80GB a plataforma ideal para cargas de trabalho de próxima geração.

Saiba Mais Sobre a A100 Para Hpc

11 Vezes Mais Desempenho em HPC em Quatro Anos

Principais Aplicações HPC

Média geométrica de acelerações de aplicação vs. P100: Aplicação de referência: Âmbar [PME-Cellulose_NVE], Chroma [szscl21_24_128], GROMACS [ADH Dodec], MILC [Apex Médio], NAMD [stmv_nve_cuda], PyTorch (BERT-Large Fine Tuner], Quantum Espresso [AUSURF112-jR]; Random Forest FP32 [make_blobs (160000 x 64: 10)], TensorFlow [ResNet-50], VASP 6 [Si Huge] | Nó de GPU com CPUs de soquete duplo com 4x NVIDIA P100, V100, ou GPUs A100.

Desempenho até 1,8 Vezes Superior para Aplicações HPC

Quantum Espresso

Quantum Espresso medido usando o conjunto de dados CNT10POR8, precisão = FP64.

Análise De Dados De Alto Desempenho

2 Vezes Mais Rápido que a A100 40GB no Benchmark de Análise de Big Data

Benchmark de análise de big data - GPU-BDB é derivado do benchmark TPCx-BB e é usado para teste de desempenho interno. Os resultados do GPU-BDB não são comparáveis ao TPCx-BB | 30 consultas analíticas de varejo, ETL, ML, NLP em conjunto de dados de 10TB | CPU: Intel Xeon Gold 6252 2,10 GHz, Hadoop | V100 32GB, RAPIDS / Dask | A100 40GB e A100 80GB, RAPIDS / Dask / BlazingSQL

Os cientistas de dados precisam ser capazes de analisar, visualizar e transformar grandes conjuntos de dados em insights. Mas as soluções de scale-out costumam ficar paradas por conjuntos de dados espalhados por vários servidores.

Servidores acelerados com a A100 fornecem o poder de computação necessário, junto com memória massiva, de mais de 2TB/s de largura de banda de memória e escalabilidade com o NVIDIANVIDIA^® NVLink^® e o NVSwitch^™, para lidar com essas cargas de trabalho. Combinado com o InfiniBand, NVIDIA Magnum IO^™ e o pacote RAPIDS^™ de bibliotecas de código aberto, incluindo o RAPIDS Accelerator para Apache Spark para análise de dados acelerada por GPU, a plataforma de data center da NVIDIA acelera essas grandes cargas de trabalho em níveis sem precedentes de desempenho e eficiência.

Em um benchmark de análise de big data, o A100 80GB forneceu insights com taxa de transferência 2 vezes maior do que A100 40GB, tornando-o ideal para cargas de trabalho emergentes com tamanhos de conjuntos de dados explodindo.

Saiba Mais Sobre Análise De Dados

Utilização Pronta Para Empresas

Taxa de Transferência de Inferência 7 Vezes Mais Alta com a GPU Multi-Instância (MIG)

Grande Inferência BERT

Grande Inferência BERT | NVIDIA TensorRT^™ (TRT) 7.1 | NVIDIA T4 Tensor Core GPU: TRT 7.1, precisão = INT8, tamanho do lote = 256 | V100: TRT 7.1, precisão = FP16, tamanho do lote = 256 | A100 com 1 ou 7 instâncias MIG de 1g.5gb: tamanho do lote = 94, precisão = INT8 com esparsidade.

A A100 com MIG maximiza a utilização da infraestrutura acelerada por GPU. Com o MIG, uma GPU A100 pode ser particionada em até sete instâncias independentes, dando a múltiplos usuários acesso à aceleração da GPU. Com a A100 40GB, cada instância MIG pode ser alocada com até 5GB, e com a capacidade de memória aumentada do A100 80GB, esse tamanho é dobrado para 10GB.

O MIG funciona com Kubernetes, contêineres e virtualização de servidor baseada em hipervisor. O MIG permite que os gerentes de infraestrutura ofereçam uma GPU do tamanho certo com garantia de qualidade de serviço (QoS) para cada trabalho, estendendo o alcance dos recursos de computação acelerada para cada usuário.

Saiba Mais Sobre O Mig

Obtenha o Máximo de Seus Sistemas

Um sistema certificado pela NVIDIA, composto por A100 e NVIDIA Mellanox SmartnNICs e DPUs, é validado quanto ao desempenho, funcionalidade, escalabilidade e segurança, permitindo que as empresas implantem facilmente soluções completas para cargas de trabalho AI do catálogo NVIDIA NGC.

Saiba Mais

GPUs Para Data Center

NVIDIA A100 para HGX

Desempenho máximo para todas as cargas de trabalho.

NVIDIA A100 para PCIe

Maior versatilidade para todas as cargas de trabalho.

Especificações

	A100 40GB PCIe	A100 80GB PCIe	A100 40GB SXM	A100 80GB SXM
FP64	9.7 TFLOPS
FP64 Tensor Core	19.5 TFLOPS
FP32	19.5 TFLOPS
Tensor Float 32 (TF32)	156 TFLOPS \| 312 TFLOPS*
BFLOAT16 Tensor Core	312 TFLOPS \| 624 TFLOPS*
FP16 Tensor Core	312 TFLOPS \| 624 TFLOPS*
INT8 Tensor Core	624 TOPS \| 1248 TOPS*
Memória da GPU	40GB HBM2	80GB HBM2e	40GB HBM2	80GB HBM2e
Largura de Banda da Memória da GPU	1,555GB/s	1,935GB/s	1,555GB/s	2,039GB/s
Potência Máxima de Design Térmico (TDP)	250W	300W	400W	400W
GPU de Multi-Instância	Até 7 MIGs @ 5GB	Até to 7 MIGs @ 10GB	Até 7 MIGs @ 5GB	Até to 7 MIGs @ 10GB
Formato	PCIe		SXM
Interconexão	NVIDIA^® NVLink^® Bridge para 2 GPUs: 600GB/s ** PCIe Gen4: 64GB/s		NVLink: 600GB/s PCIe Gen4: 64GB/s
Opções de Servidor	Parceiros e Sistemas Certificados pela NVIDIA^™ com 1-8 GPUs		Parceiros NVIDIA HGX^™ A100 e Sistemas Certificados pela NVIDIA com 4, 8 ou 16 GPUs NVIDIA DGX^™ A100 com 8 GPUs

* Com esparsidade
** GPUs SXM4 via placas de servirod HGX A100; GPUs PCIe via Bridge NVLink para até 2 GPUs

Veja as Versões Mais Recentes do MPerf Behcnmark

Veja Os Resultados

Por Dentro da Arquitetura NVIDIA Ampere

Saiba o que há de novo na arquitetura NVIDIA Ampere e sua implementação na GPU NVIDIA A100.

Leia O Whitepaper