GPU NVIDIA A100 Tensor Core

Aceleração sem precedentes em todas as escalas

Acelerando o Trabalho Mais Importante do Nosso Tempo

A GPU NVIDIA A100 Tensor Core oferece aceleração sem precedentes em todas as escalas para alimentar os data centers elásticos de maior desempenho do mundo para AI, análise de dados e HPC. Equipado com a Arquitetura NVIDIA Ampere, a A100 é o mecanismo da plataforma de data center da NVIDIA. A A100 oferece desempenho até 20 vezes maior em relação à geração anterior e pode ser particionada em até sete instâncias de GPU para se ajustar dinamicamente às demandas variáveis. Disponível em versões de memória de 40GB e 80GB, a A100 80GB apresenta a largura de banda de memória mais rápida do mundo com mais de 2 terabytes por segundo (TB/s) para executar os maiores modelos e conjuntos de dados.

Software Corporativo Pronto para AI

A plataforma NVIDIA EGX™ inclui software otimizado que oferece computação acelerada em toda a infraestrutura. Com o NVIDIA AI Enterprise, as empresas podem acessar um conjunto de ponta a ponta, nativo do cloud de AI e software de análise de dados que é otimizado, certificado e suportado pela NVIDIA para rodar em VMware vSphere com os Sistemas Certificados pela NVIDIA. NVIDIA AI Enterprise inclui tecnologias essenciais da NVIDIA para rápida implantação, gerenciamento e escalonamento de cargas de trabalho de IA no cloud híbrido moderno.

A Mais Poderosa e Completa Plataforma de Data Centers de AI e HPC

A A100 faz parte da solução completa de datacenter da NVIDIA, que incorpora elementos básicos de hardware, rede, software, bibliotecas e modelos e aplicações de AI otimizados da NGC. Representando a plataforma completa de AI e HPC mais poderosa para data centers, ela permite que os pesquisadores entreguem resultados reais e implementem soluções na produção em escala.

 

Making of Ampere Video

TREINAMENTO EM DEEP LEARNING

Desempenho até 3 Vezes Maior em Modelos Grandes

Treinamento DLRM

Desempenho até 3 Vezes Maior em Modelos Grandes

Os modelos de AI estão cada vez mais complexos à medida que enfrentam desafios de próximo nível, como a AI de conversação. Treiná-los requer enorme poder de computação e escalabilidade.

Os NVIDIA A100 Tensor Cores com Tensor Float (TF32) fornecem desempenho até 20 vezes maior sobre o NVIDIA Volta com zero alterações de código e um aumento adicional de 2 vezes com precisão mista automática e FP16. Quando combinado com o NVIDIA® NVLink®, NVIDIA NVSwitch, PCI Gen4, NVIDIA® Mellanox® InfiniBand® e o NVIDIA Magnum IO SDK, é possível escalar para milhares de GPUs A100.

Uma carga de trabalho de treinamento como o BERT pode ser resolvida em escala em menos de um minuto por 2.048 GPUs A100, um recorde mundial de tempo para solução.

Para os modelos maiores com tabelas de dados massivas, como modelos de recomendação de deep learning (DLRM), a A100 80GB atinge até 1,3TB de memória unificada por nó e oferece um aumento de rendimento de até 3 vezes em relação à A100 40GB.

A liderança da NVIDIA no MLPerf estabeleceu múltiplos recordes de desempenho no benchmark de toda a indústria para treinamento de AI.

INFERÊNCIA EM DEEP LEARNING

A A100 apresenta recursos inovadores para otimizar as cargas de trabalho de inferência. Ela acelera uma gama completa de precisões, do FP32 ao INT4. A tecnologia GPU Multi-Instâncias (MIG) permite que várias redes operem simultaneamente em uma única GPU A100 para utilização otimizada dos recursos de computação. E o suporte à escassez estrutural oferece até 2 vezes mais desempenho, além dos outros ganhos de desempenho de inferência do A100. 

Em modelos de conversação de AI de última geração, como o BERT, a A100 acelera a taxa de transferência de inferência em até 249 vezes sobre as CPUs.

Nos modelos mais complexos com tamanho de lote restrito, como o RNN-T para reconhecimento automático de fala, a capacidade de memória ampliada da A100 80GB dobra o tamanho de cada MIG e oferece uma taxa de transferência até 1,25 vezes maior em relação à A100 40GB.

O desempenho líder de mercado da NVIDIA foi demonstrado na Inferência do MLPerf. A A100 traz 20 vezes mais desempenho para ampliar ainda mais essa liderança.

Desempenho de Inferência de AI Até 249 Vezes Superior em Relação às CPUs

Inferência BERT-LARGE

Desempenho de Inferência de AI Até 249 Vezes Superior em Relação às CPUs

Desempenho de Inferência AI até 1,25 Vezes Superior em Relação à A100 40GB

Inferência RNN-T: Fluxo Único

Desempenho de Inferência AI até 1,25 Vezes Superior em Relação à A100 40GB

Computação de Alto Desempenho

Para desbloquear as descobertas da próxima geração, os cientistas procuram simulações para entender melhor o mundo ao nosso redor.

A NVIDIA A100 apresenta Tensor Cores de dupla precisão para oferecer o maior salto em desempenho de HPC desde a introdução de GPUs. Combinado com 80GB da memória de GPU mais rápida, os pesquisadores podem reduzir uma simulação de precisão dupla de 10 horas para menos de quatro horas na A100. As aplicações de HPC também podem aproveitar o TF32 para alcançar um rendimento até 11 vezes maior para operações densas de multiplicação de matriz de precisão única.

Para as aplicações de HPC com os maiores conjuntos de dados, a memória adicional da A100 80GB oferece um aumento de rendimento de até 2 vezes com Quantum Espresso, uma simulação de materiais. Esta memória massiva e largura de banda de memória sem precedentes tornam a A100 80GB a plataforma ideal para cargas de trabalho de próxima geração.

11 Vezes Mais Desempenho em HPC em Quatro Anos

Principais Aplicações HPC

11 Vezes Mais Desempenho em HPC em Quatro Anos

Desempenho até 1,8 Vezes Superior para Aplicações HPC

Quantum Espresso​

Desempenho até 1,8 Vezes Superior para Aplicações HPC

ANÁLISE DE DADOS DE ALTO DESEMPENHO

2 Vezes Mais Rápido que a A100 40GB no Benchmark de Análise de Big Data

2 Vezes Mais Rápido que a A100 40GB no Benchmark de Análise de Big Data

Os cientistas de dados precisam ser capazes de analisar, visualizar e transformar grandes conjuntos de dados em insights. Mas as soluções de scale-out costumam ficar paradas por conjuntos de dados espalhados por vários servidores.

Servidores acelerados com a A100 fornecem o poder de computação necessário, junto com memória massiva, de mais de 2TB/s de largura de banda de memória e escalabilidade com o NVIDIANVIDIA® NVLink® e o NVSwitch, para lidar com essas cargas de trabalho. Combinado com o InfiniBand, NVIDIA Magnum IO e o pacote RAPIDS de bibliotecas de código aberto, incluindo o RAPIDS Accelerator para Apache Spark para análise de dados acelerada por GPU, a plataforma de data center da NVIDIA acelera essas grandes cargas de trabalho em níveis sem precedentes de desempenho e eficiência.

Em um benchmark de análise de big data, o A100 80GB forneceu insights com taxa de transferência 2 vezes maior do que A100 40GB, tornando-o ideal para cargas de trabalho emergentes com tamanhos de conjuntos de dados explodindo.

UTILIZAÇÃO PRONTA PARA EMPRESAS

Taxa de Transferência de Inferência 7 Vezes Mais Alta com a GPU Multi-Instância (MIG)

Grande Inferência BERT

Taxa de Transferência de Inferência 7 Vezes Mais Alta com a GPU Multi-Instância (MIG)

A A100 com MIG maximiza a utilização da infraestrutura acelerada por GPU. Com o MIG, uma GPU A100 pode ser particionada em até sete instâncias independentes, dando a múltiplos usuários acesso à aceleração da GPU. Com a A100 40GB, cada instância MIG pode ser alocada com até 5GB, e com a capacidade de memória aumentada do A100 80GB, esse tamanho é dobrado para 10GB.

O MIG funciona com Kubernetes, contêineres e virtualização de servidor baseada em hipervisor. O MIG permite que os gerentes de infraestrutura ofereçam uma GPU do tamanho certo com garantia de qualidade de serviço (QoS) para cada trabalho, estendendo o alcance dos recursos de computação acelerada para cada usuário.

Obtenha o Máximo de Seus Sistemas

Um sistema certificado pela NVIDIA, composto por A100 e NVIDIA Mellanox SmartnNICs e DPUs, é validado quanto ao desempenho, funcionalidade, escalabilidade e segurança, permitindo que as empresas implantem facilmente soluções completas para cargas de trabalho AI do catálogo NVIDIA NGC.

GPUs PARA DATA CENTER

NVIDIA A100 para HGX

NVIDIA A100 para HGX

Desempenho máximo para todas as cargas de trabalho.

NVIDIA A100 para PCIe

NVIDIA A100 para PCIe

Maior versatilidade para todas as cargas de trabalho.

ESPECIFICAÇÕES

  A100 40GB PCIe A100 80GB PCIe A100 40GB SXM A100 80GB SXM
FP64 9.7 TFLOPS
FP64 Tensor Core 19.5 TFLOPS
FP32 19.5 TFLOPS
Tensor Float 32 (TF32) 156 TFLOPS | 312 TFLOPS*
BFLOAT16 Tensor Core 312 TFLOPS | 624 TFLOPS*
FP16 Tensor Core 312 TFLOPS | 624 TFLOPS*
INT8 Tensor Core 624 TOPS | 1248 TOPS*
Memória da GPU 40GB HBM2 80GB HBM2e 40GB HBM2 80GB HBM2e
Largura de Banda da Memória da GPU 1,555GB/s 1,935GB/s 1,555GB/s 2,039GB/s
Potência Máxima de Design Térmico (TDP) 250W 300W 400W 400W
GPU de Multi-Instância Até 7 MIGs @ 5GB Até to 7 MIGs @ 10GB Até 7 MIGs @ 5GB Até to 7 MIGs @ 10GB
Formato PCIe SXM
Interconexão NVIDIA® NVLink® Bridge para 2 GPUs: 600GB/s **
PCIe Gen4: 64GB/s
NVLink: 600GB/s
PCIe Gen4: 64GB/s
Opções de Servidor Parceiros e Sistemas Certificados pela NVIDIA com 1-8 GPUs Parceiros NVIDIA HGX A100 e Sistemas Certificados pela NVIDIA com 4, 8 ou 16 GPUs
NVIDIA DGX A100 com 8 GPUs
 

Veja as Versões Mais Recentes do MPerf Behcnmark

Por Dentro da Arquitetura NVIDIA Ampere

Saiba o que há de novo na arquitetura NVIDIA Ampere e sua implementação na GPU NVIDIA A100.