Arquitetura NVIDIA Ampere

O Coração dos Data Centers Flexíveis de Melhor Desempenho do Mundo

O Núcleo da AI e HPC no Data Center Moderno

Cientistas, pesquisadores e engenheiros, os da Vincis e Einsteins de nosso tempo, estão trabalhando para resolver os desafios científicos, industriais e de big data mais importantes do mundo com AI e  computação de alto desempenho (HPC). Enquanto isso, as empresas e os setores buscam aproveitar o poder da AI para extrair novos insights de enormes conjuntos de dados, tanto no local quanto no cloud. A arquitetura NVIDIA Ampere, projetada para a era da computação elástica, oferece o próximo salto gigante ao fornecer aceleração incomparável em todas as escalas, permitindo que esses inovadores façam o trabalho de suas vidas.

Inovações Revolucionárias

Produzida com 54 bilhões de transistores, a arquitetura NVIDIA Ampere é o maior chip de 7 nanômetros (nm) já construído e apresenta seis inovações importantes.

Tensor Cores de Terceira Geração

Introduzida pela primeira vez na arquitetura NVIDIA Volta™, a tecnologia NVIDIA Tensor Core trouxe grandes acelerações à AI, diminuindo o tempo de treinamento de semanas para horas e fornecendo aceleração maciça à inferência. A arquitetura NVIDIA Ampere se baseia nestas inovações, trazendo novas precisões - Tensor Float (TF32) e ponto flutuante 64 (FP64) - para acelerar e simplificar a adoção da AI e estender o poder dos Tensor Cores à HPC.

O TF32 funciona exatamente como o FP32, oferecendo acelerações de até 10 vezes para AI sem exigir nenhuma alteração no código. Usando a Precisão Mista Automática da NVIDIA (NVIDIA Automatic Mixed Precision), os pesquisadores podem obter um desempenho adicional de 2 vezes com apenas uma linha de código adicional. E com suporte para bfloat16, INT8 e INT4, os Tensor Cores nas GPUs NVIDIA A100 Tensor Core criam um acelerador incrivelmente versátil para treinamento e inferência em AI. Trazendo o poder dos Tensor Cores para o HPC, a A100 também permite operações de matriz com precisão FP64 completa, certificada pela IEEE.

Tensor Cores de Terceira Geração
Multi-Instance GPU (MIG)

Multi-Instance GPU (MIG)

Toda aplicação de AI e HPC pode se beneficiar da aceleração, mas nem toda aplicação precisa do desempenho total de uma GPU A100. Com o MIG, cada A100 pode ser particionada em até sete instâncias de GPU, totalmente isoladas e protegidas no nível do hardware com seus próprios núcleos de memória, cache e computação de alta largura de banda. Agora, os desenvolvedores podem acessar a aceleração avançada para todas as suas aplicações, grandes e pequenas, e obter qualidade de serviço garantida. E os administradores de IT podem oferecer a aceleração de GPU do tamanho certo para utilização otimizada e expandir o acesso a todos os usuários e aplicações em ambientes virtualizados e bare-metal.

Estrutura Sparsity

Estrutura Sparsity

As redes modernas de AI são grandes e estão ficando maiores, com milhões e, em alguns casos, bilhões de parâmetros. Nem todos esses parâmetros são necessários para previsões precisas e inferência, e alguns podem ser convertidos em zeros para tornar os modelos "esparsos" sem comprometer a precisão. Os Tensor Cores na A100 podem oferecer desempenho 2 vezes maior para modelos esparsos. Embora o recurso de dispersão beneficie mais facilmente a inferência de AI, ele também pode ser usado para melhorar o desempenho do treinamento do modelo.

RT Cores de Segunda Geração

Com uma taxa de transferência significativamente mais rápida em relação à geração anterior e a capacidade de executar simultaneamente ray tracing com recursos de sombreamento ou eliminação de ruído, os RT Cores de segunda geração da arquitetura NVIDIA Ampere na GPU NVIDIA A40 oferecem grandes acelerações para cargas de trabalho como renderização fotorrealística de conteúdo de filme, avaliações de arquitetura de design e prototipagem virtual de designs de produtos. Esta tecnologia também acelera a renderização de motion blur por ray tracing para resultados mais rápidos com maior precisão visual e pode executar simultaneamente ray tracing com sombreamento ou recursos de redução de ruído.

Second-Generation RT Cores
Memória Mais Inteligente e Mais Rápida

Memória Mais Inteligente e Mais Rápida

A A100 está trazendo enormes quantidades de processamento para os data centers. Para manter esses mecanismos de computação totalmente utilizados, ela possui 1,5 terabytes por segundo (TB/s) de largura de banda de memória, um aumento de 67% em relação à geração anterior. Além disso, a A100 possui mais memória no chip, incluindo um cache de 40 megabytes (MB) nível 2, 7 vezes maior que a geração anterior, para maximizar o desempenho do processamento.

Aceleração Convergente no Edge

A combinação da arquitetura NVIDIA Ampere e a NVIDIA Mellanox® ConnectX-6® Dx SmartNIC em aceleradores convergentes NVIDIA EGX™ traz recursos de computação e aceleração de rede sem precedentes para processar grandes quantidades de dados sendo gerados no edge. O Mellanox SmartNIC inclui descarregamentos de segurança que descriptografam a taxas de linha de até 200 gigabits por segundo (Gb/s) e o GPUDirect ™ que transfere quadros de vídeo diretamente para a memória GPU para processamento de AI. Com o acelerador convergente EGX, as empresas podem acelerar a implantação de AI no edge com mais segurança e eficiência.

Aceleração Convergente no Edge

Por Dentro da Arquitetura NVIDIA Ampere

Veja o que há de novo na arquitetura NVIDIA Ampere e sua implementação na GPU NVIDIA A100.