GPU NVIDIA A100 Tensor Core

Aceleração sem precedentes em todas as escalas

Acelerando o Trabalho Mais Importante do Nosso Tempo

A GPU NVIDIA A100 Tensor Core oferece aceleração sem precedentes em todas as escalas para alimentar os data centers elásticos de maior desempenho do mundo para AI, análise de dados e HPC. Equipado com a Arquitetura NVIDIA Ampere, a A100 é o mecanismo da plataforma de data center da NVIDIA. A A100 oferece desempenho até 20 vezes maior em relação à geração anterior e pode ser particionada em até sete instâncias de GPU para se ajustar dinamicamente às demandas variáveis. Disponível em versões de memória de 40GB e 80GB, a A100 80GB apresenta a largura de banda de memória mais rápida do mundo com mais de 2 terabytes por segundo (TB/s) para executar os maiores modelos e conjuntos de dados.

A Mais Poderosa e Completa Plataforma de Data Centers de AI e HPC

A A100 faz parte da solução completa de datacenter da NVIDIA, que incorpora elementos básicos de hardware, rede, software, bibliotecas e modelos e aplicações de AI otimizados da NGC. Representando a plataforma completa de AI e HPC mais poderosa para data centers, ela permite que os pesquisadores entreguem resultados reais e implementem soluções na produção em escala.

 

Making of Ampere Video

TREINAMENTO EM DEEP LEARNING

Desempenho até 3 Vezes Maior em Modelos Grandes

Treinamento DLRM

Desempenho até 3 Vezes Maior em Modelos Grandes

Os modelos de AI estão cada vez mais complexos à medida que enfrentam desafios de próximo nível, como a AI de conversação. Treiná-los requer enorme poder de computação e escalabilidade.

Os NVIDIA A100 Tensor Cores com Tensor Float (TF32) fornecem desempenho até 20 vezes maior sobre o NVIDIA Volta com zero alterações de código e um aumento adicional de 2 vezes com precisão mista automática e FP16. Quando combinado com o NVIDIA® NVLink®, NVIDIA NVSwitch, PCI Gen4, NVIDIA® Mellanox® InfiniBand® e o NVIDIA Magnum IO SDK, é possível escalar para milhares de GPUs A100.

Uma carga de trabalho de treinamento como o BERT pode ser resolvida em escala em menos de um minuto por 2.048 GPUs A100, um recorde mundial de tempo para solução.

Para os modelos maiores com tabelas de dados massivas, como modelos de recomendação de deep learning (DLRM), a A100 80GB atinge até 1,3TB de memória unificada por nó e oferece um aumento de rendimento de até 3 vezes em relação à A100 40GB.

A liderança da NVIDIA no MLPerf estabeleceu múltiplos recordes de desempenho no benchmark de toda a indústria para treinamento de AI.

INFERÊNCIA EM DEEP LEARNING

A A100 apresenta recursos inovadores para otimizar as cargas de trabalho de inferência. Ela acelera uma gama completa de precisões, do FP32 ao INT4. A tecnologia GPU Multi-Instâncias (MIG) permite que várias redes operem simultaneamente em uma única GPU A100 para utilização otimizada dos recursos de computação. E o suporte à escassez estrutural oferece até 2 vezes mais desempenho, além dos outros ganhos de desempenho de inferência do A100.

Em modelos de conversação de AI de última geração, como o BERT, a A100 acelera a taxa de transferência de inferência em até 249 vezes sobre as CPUs.

Nos modelos mais complexos com tamanho de lote restrito, como o RNN-T para reconhecimento automático de fala, a capacidade de memória ampliada da A100 80GB dobra o tamanho de cada MIG e oferece uma taxa de transferência até 1,25 vezes maior em relação à A100 40GB.

O desempenho líder de mercado da NVIDIA foi demonstrado na Inferência do MLPerf. A A100 traz 20 vezes mais desempenho para ampliar ainda mais essa liderança.

Desempenho de Inferência de AI Até 249 Vezes Superior em Relação às CPUs

Inferência BERT-LARGE

Desempenho de Inferência de AI Até 249 Vezes Superior em Relação às CPUs

Desempenho de Inferência AI até 1,25 Vezes Superior em Relação à A100 40GB

Inferência RNN-T: Fluxo Único

Desempenho de Inferência AI até 1,25 Vezes Superior em Relação à A100 40GB

High-Performance Computing

Para desbloquear as descobertas da próxima geração, os cientistas procuram simulações para entender melhor o mundo ao nosso redor.

A NVIDIA A100 apresenta Tensor Cores de dupla precisão para oferecer o maior salto em desempenho de HPC desde a introdução de GPUs. Combinado com 80GB da memória de GPU mais rápida, os pesquisadores podem reduzir uma simulação de precisão dupla de 10 horas para menos de quatro horas na A100. As aplicações de HPC também podem aproveitar o TF32 para alcançar um rendimento até 11 vezes maior para operações densas de multiplicação de matriz de precisão única.

Para as aplicações de HPC com os maiores conjuntos de dados, a memória adicional da A100 80GB oferece um aumento de rendimento de até 2 vezes com Quantum Espresso, uma simulação de materiais. Esta memória massiva e largura de banda de memória sem precedentes tornam a A100 80GB a plataforma ideal para cargas de trabalho de próxima geração.

11 Vezes Mais Desempenho em HPC em Quatro Anos

Principais Aplicações HPC

11 Vezes Mais Desempenho em HPC em Quatro Anos

Desempenho até 1,8 Vezes Superior para Aplicações HPC

Quantum Espresso​

Desempenho até 1,8 Vezes Superior para Aplicações HPC

ANÁLISE DE DADOS DE ALTO DESEMPENHO

Até 83 vezes mais rápido que uma CPU, 2 vezes mais rápido que a A100 40GB no benchmark de análise de big data

Até 83 vezes mais rápido que uma CPU, 2 vezes mais rápido que a A100 40GB no benchmark de análise de big data

Os cientistas de dados precisam ser capazes de analisar, visualizar e transformar grandes conjuntos de dados em insights. Mas as soluções de scale-out costumam ficar paradas por conjuntos de dados espalhados por vários servidores.

Servidores acelerados com a A100 fornecem o poder de computação necessário, junto com memória massiva, de mais de 2TB/s de largura de banda de memória e escalabilidade com o NVIDIA® NVLink® e o NVSwitch, para lidar com essas cargas de trabalho. Combinado com o InfiniBand, NVIDIA Magnum IO e o pacote RAPIDS de bibliotecas de código aberto, incluindo o RAPIDS Accelerator para Apache Spark para análise de dados acelerada por GPU, a plataforma de data center da NVIDIA acelera essas grandes cargas de trabalho em níveis sem precedentes de desempenho e eficiência.

Em um benchmark de análise de big data, a A100 80GB forneceu insights com throughput 83 vezes maior do que CPUs e um aumento de 2 vezes em relação à A100 40GB, tornando-a adequada para cargas de trabalho emergentes com tamanhos de conjuntos de dados explodindo.

UTILIZAÇÃO PRONTA PARA EMPRESAS

Taxa de Transferência de Inferência 7 Vezes Mais Alta com a GPU Multi-Instância (MIG)

Grande Inferência BERT

Taxa de Transferência de Inferência 7 Vezes Mais Alta com a GPU Multi-Instância (MIG)

A A100 com MIG maximiza a utilização da infraestrutura acelerada por GPU. Com o MIG, uma GPU A100 pode ser particionada em até sete instâncias independentes, dando a múltiplos usuários acesso à aceleração da GPU. Com a A100 40GB, cada instância MIG pode ser alocada com até 5GB, e com a capacidade de memória aumentada do A100 80GB, esse tamanho é dobrado para 10GB.

O MIG funciona com Kubernetes, contêineres e virtualização de servidor baseada em hipervisor. O MIG permite que os gerentes de infraestrutura ofereçam uma GPU do tamanho certo com garantia de qualidade de serviço (QoS) para cada trabalho, estendendo o alcance dos recursos de computação acelerada para cada usuário.

Obtenha o Máximo de Seus Sistemas

Um sistema certificado pela NVIDIA, composto por A100 e NVIDIA Mellanox SmartnNICs e DPUs, é validado quanto ao desempenho, funcionalidade, escalabilidade e segurança, permitindo que as empresas implantem facilmente soluções completas para cargas de trabalho AI do catálogo NVIDIA NGC.

GPUs PARA DATA CENTER

NVIDIA A100 para HGX

NVIDIA A100 para HGX

Desempenho máximo para todas as cargas de trabalho.

NVIDIA A100 para PCIe

NVIDIA A100 para PCIe

Maior versatilidade para todas as cargas de trabalho.

ESPECIFICAÇÕES

  NVIDIA A100 para NVLink NVIDIA A100 para PCIe
Peak FP64 9.7 TF 9.7 TF
Peak FP64 Tensor Core 19.5 TF 19.5 TF
Peak FP32 19.5 TF 19.5 TF
Tensor Float 32 (TF32) 156 TF | 312 TF* 156 TF | 312 TF*
Peak BFLOAT16 Tensor Core 312 TF | 624 TF* 312 TF | 624 TF*
Peak FP16 Tensor Core 312 TF | 624 TF* 312 TF | 624 TF*
Peak INT8 Tensor Core 624 TOPS | 1,248 TOPS* 624 TOPS | 1,248 TOPS*
Peak INT4 Tensor Core 1,248 TOPS | 2,496 TOPS* 1,248 TOPS | 2,496 TOPS*
Memória GPU 40GB 80GB 40GB
Largura de Banda da Memória da GPU 1,555 GB/s 2,039 GB/s 1,555 GB/s
Interconexão NVIDIA NVLink 600 GB/s**
PCIe Gen4 64 GB/s
NVIDIA NVLink 600 GB/s**
PCIe Gen4 64 GB/s
GPUs Multi-Instância Vários tamanhos de instância com até 7MIGs a 10GB Vários tamanhos de instância com até 7MIGs a 5GB
Tamanho 4/8 SXM na NVIDIA HGX A100 PCIe
Potência TDP Máxima 400 W 400 W 250 W
 

Veja as Versões Mais Recentes do MPerf Behcnmark

Por Dentro da Arquitetura NVIDIA Ampere

Saiba o que há de novo na arquitetura NVIDIA Ampere e sua implementação na GPU NVIDIA A100.