Arquitetura NVIDIA Ampere

O coração dos data centers elásticos de maior desempenho do mundo. 

O Núcleo da AI e do HPC no Data Center Moderno

Cientistas, pesquisadores e engenheiros estão trabalhando para resolver os desafios científicos, industriais e de big data mais importantes do mundo com AI e computação de alto desempenho (HPC). Enquanto isso, as empresas buscam aproveitar o poder da AI para extrair novos insights de enormes conjuntos de dados, tanto no local quanto no cloud. A arquitetura NVIDIA Ampere, projetada para a era da computação elástica, oferece o próximo salto gigante ao fornecer aceleração incomparável em todas as escalas.

Inovações Revolucionárias

Construída com 54 bilhões de transistores, a arquitetura NVIDIA Ampere é o maior chip de 7 nanômetros (nm) já construído e apresenta seis inovações importantes.. 

Tensor Cores de Terceira Geração

Introduzida pela primeira vez na arquitetura NVIDIA Volta™, a tecnologia NVIDIA Tensor Core trouxe acelerações significativas à AI, reduzindo o tempo de treinamento de semanas para horas e fornecendo aceleração massiva para inferência. A arquitetura NVIDIA Ampere se baseia nessas inovações, trazendo novas precisões, Tensor Float 32 (TF32) e ponto flutuante 64 (FP64), para acelerar e simplificar a adoção da AI e estender o poder dos Tensor Cores para HPC.

O TF32 funciona exatamente como o FP32, ao mesmo tempo que oferece acelerações de até 20 vezes para AI sem exigir nenhuma alteração de código. Usando o NVIDIA Automatic Mixed Precision, os pesquisadores podem obter um desempenho 2 vezes adicional com precisão mista automática e FP16 adicionando apenas algumas linhas de código. E com suporte para bfloat16, INT8 e INT4, Tensor Cores na arquitetura NVIDIA Ampere GPUs Tensor Core criam um acelerador incrivelmente versátil para treinamento de AI e inferência. Trazendo o poder dos Tensor Cores para as GPUs HPC, A100 e A30, também permite operações de matriz com precisão FP64 com certificação IEEE completa. 

Tensor Cores de Terceira Geração
GPU Multi-Instância (MIG)

GPU Multi-Instância (MIG)

Todas as aplicações de AI e HPC podem se beneficiar da aceleração, mas nem todas as aplicações precisam do desempenho de uma GPU completa. A GPU multi-instância (MIG) é um recurso compatível com as GPUs A100 e A30 que permite que as cargas de trabalho compartilhem a GPU. Com o MIG, cada GPU pode ser particionada em várias instâncias de GPU, totalmente isoladas e protegidas no nível do hardware com sua própria memória de alta largura de banda, cache e núcleos de computação. Agora, os desenvolvedores podem acessar uma aceleração revolucionária para todas as suas aplicações, grandes e pequenas, e obter qualidade de serviço garantida. E os administradores de IT podem oferecer aceleração de GPU do tamanho certo para utilização ideal e expandir o acesso a todos os usuários e aplicações em ambientes bare-metal e virtualizados.

Esparsidade Estrutural

Esparsidade Estrutural

As redes modernas de IA são grandes e cada vez maiores, com milhões e, em alguns casos, bilhões de parâmetros. Nem todos esses parâmetros são necessários para previsões e inferências precisas, e alguns podem ser convertidos em zeros para tornar os modelos “esparsos” sem comprometer a precisão. O Tensor Cores pode fornecer desempenho até 2 vezes maior para modelos esparsos. Embora o recurso de dispersão beneficie mais prontamente a inferência de AI, ele também pode ser usado para melhorar o desempenho do treinamento do modelo. 

RT Cores de Segunda Geração

Os RT Cores de segunda geração da arquitetura NVIDIA Ampere nas GPUs NVIDIA A40 e A10 oferecem acelerações massivas para cargas de trabalho como renderização fotorrealística de conteúdo de filmes, avaliações de projeto arquitetônico e prototipagem virtual de projetos de produtos. Os RT Cores também aceleram a renderização de motion blur por ray tracing para resultados mais rápidos com maior precisão visual e podem executar simultaneamente ray tracing com sombreamento ou recursos de eliminação de ruído.

RT Cores de Segunda Geração
Memória Mais Inteligente e Mais Rápida

Memória Mais Inteligente e Mais Rápida

A A100 traz grandes quantidades de computação para os data centers. Para manter esses mecanismos de computação totalmente utilizados, ela tem 2 terabytes por segundo (TB/s) de largura de banda de memória, mais do que o dobro da geração anterior. Além disso, a A100 tem mais memória no chip, incluindo um cache de nível 2 de 40 megabytes (MB), 7 vezes maior do que a geração anterior, para maximizar o desempenho de computação.

Aceleração Convergente no Edge

A combinação da arquitetura NVIDIA Ampere e a unidade de processamento de dados NVIDIA BlueField®-2 (DPU) em aceleradores convergentes NVIDIA traz computação e aceleração de rede sem precedentes para processar grandes quantidades de dados sendo gerados no data center e no edge. O BlueField-2 combina o poder do NVIDIA ConnectX®-6 Dx com núcleos Arm programáveis e offloads de hardware para armazenamento definido por software, rede, segurança e cargas de trabalho de gerenciamento. Com os aceleradores convergentes da NVIDIA, os clientes podem executar cargas de trabalho no edge e no data center com uso intensivo de dados com segurança e desempenho máximos.

Aceleração Convergente no Edge
Design com Densidade Otimizada

Design com Densidade Otimizada

A GPU NVIDIA A16 vem em um design de placa quad-GPU otimizado para densidade de usuário e, combinado com o software NVIDIA Virtual PC (vPC), permite que PCs virtuais ricos em gráficos sejam acessíveis de qualquer lugar. Ofereça maior taxa de quadros e menor latência do usuário final em comparação com o VDI somente da CPU com NVIDIA A16, resultando em aplicações mais responsivas e uma experiência de usuário indistinguível de um PC nativo..

Por Dentro da Arquitetura NVIDIA Ampere

Explore as tecnologias de ponta da arquitetura e sua linha completa de GPUs.