Arquitetura NVIDIA Ampere

O Coração dos Data Centers Flexíveis de Melhor Desempenho do Mundo

O Núcleo da AI e HPC no Data Center Moderno

Cientistas, pesquisadores e engenheiros (os da Vincis e Einsteins de nossos dias) estão trabalhando para solucionar os mais importantes desafios científicos, industriais e de big data do mundo com AI e computação de alto desempenho (HPC). A arquitetura NVIDIA Ampere, projetada para a era da computação flexível, oferece o próximo salto gigante, fornecendo aceleração inigualável em todas as escalas, permitindo que estes inovadores realizem seus trabalhos.

Inovações

Criado com 54 bilhões de transistores, a NVIDIA Ampere é o maior chip de 7 nanômetros (nm) já construído e apresenta seis principais inovações.

Tensor Cores de Terceira Geração

Tensor Cores de Terceira Geração

Introduzida pela primeira vez na arquitetura NVIDIA Volta™, a tecnologia NVIDIA Tensor Core trouxe grandes acelerações à AI, diminuindo o tempo de treinamento de semanas para horas e fornecendo aceleração maciça à inferência. A arquitetura NVIDIA Ampere se baseia nestas inovações, trazendo novas precisões - Tensor Float (TF32) e ponto flutuante 64 (FP64) - para acelerar e simplificar a adoção da AI e estender o poder dos Tensor Cores à HPC.

O TF32 funciona exatamente como o FP32, oferecendo acelerações de até 10 vezes para AI sem exigir nenhuma alteração no código. Usando a Precisão Mista Automática da NVIDIA (NVIDIA Automatic Mixed Precision), os pesquisadores podem obter um desempenho adicional de 2 vezes com apenas uma linha de código adicional. E com suporte para bfloat16, INT8 e INT4, os Tensor Cores nas GPUs NVIDIA A100 Tensor Core criam um acelerador incrivelmente versátil para treinamento e inferência em AI. Trazendo o poder dos Tensor Cores para o HPC, a A100 também permite operações de matriz com precisão FP64 completa, certificada pela IEEE.

Multi-Instance GPU (MIG)

Toda aplicação de AI e HPC pode se beneficiar da aceleração, mas nem toda aplicação precisa do desempenho total de uma GPU A100. Com o MIG, cada A100 pode ser particionada em até sete instâncias de GPU, totalmente isoladas e protegidas no nível do hardware com seus próprios núcleos de memória, cache e computação de alta largura de banda. Agora, os desenvolvedores podem acessar a aceleração avançada para todas as suas aplicações, grandes e pequenas, e obter qualidade de serviço garantida. E os administradores de IT podem oferecer a aceleração de GPU do tamanho certo para utilização otimizada e expandir o acesso a todos os usuários e aplicações em ambientes virtualizados e bare-metal.

Multi-Instance GPU (MIG)

Estrutura Sparsity

As redes modernas de AI são grandes e estão ficando maiores, com milhões e, em alguns casos, bilhões de parâmetros. Nem todos esses parâmetros são necessários para previsões precisas e inferência, e alguns podem ser convertidos em zeros para tornar os modelos "esparsos" sem comprometer a precisão. Os Tensor Cores na A100 podem oferecer desempenho 2 vezes maior para modelos esparsos. Embora o recurso de dispersão beneficie mais facilmente a inferência de AI, ele também pode ser usado para melhorar o desempenho do treinamento do modelo.

Estrutura Sparsity
Memória Mais Inteligente e Mais Rápida

Memória Mais Inteligente e Mais Rápida

A A100 está trazendo enormes quantidades de processamento para os data centers. Para manter esses mecanismos de computação totalmente utilizados, ela possui 1,5 terabytes por segundo (TB/s) de largura de banda de memória, um aumento de 67% em relação à geração anterior. Além disso, a A100 possui mais memória no chip, incluindo um cache de 40 megabytes (MB) nível 2, 7 vezes maior que a geração anterior, para maximizar o desempenho do processamento.

Aceleração Convergente no Edge

A combinação da arquitetura NVIDIA Ampere e o ConnectX-6 Dx SmartNIC da Mellanox na NVIDIA EGX™ A100 traz recursos sem precedentes de computação e aceleração de rede para processar grandes quantidades de dados que são gerados no edge. O Mellanox SmartNIC inclui descargas de segurança para descriptografar em taxas de linha de até 200 gigabits por segundo (Gb/s), e o GPUDirect™ transfere os quadros de vídeo diretamente para a memória da GPU para processamento de AI. Com a EGX A100, as empresas podem acelerar a implantação da AI no edge com mais segurança e eficiência.

Aceleração Convergente no Edge

Por Dentro da Arquitetura NVIDIA Ampere

Veja o que há de novo na arquitetura NVIDIA Ampere e sua implementação na GPU NVIDIA A100.