Plataforma de armazenamento com memória de contexto NVIDIA CMX

Ecossistema de armazenamento de IA para data centers

Plataforma de armazenamento de memória de contexto NVIDIA CMX

Rearquitetando o armazenamento de inferência para a próxima fronteira da IA.

Visão Geral
Produtos
Benefícios
Ecossistema
Recursos
Comece Agora

Visão Geral
Produtos
Benefícios
Ecossistema
Recursos
Comece Agora

Visão Geral

Armazenamento nativo de IA acelera a inferência de longo contexto em escala

O armazenamento de memória de contexto NVIDIA® CMX™ é uma camada de contexto nativa de IA para inferência de IA de contexto longo, de vários turnos e baseada em agentes. Com tecnologia do processador de armazenamento NVIDIA BlueField®‑4, ele estende a memória da GPU com uma camada de contexto compartilhada em nível de pod, otimizada para cache efêmero de chave-valor (KV). A plataforma fornece um caminho de alta largura de banda que reduz a latência, o custo e a sobrecarga de energia para cargas de trabalho de inferência em larga escala, ajudando a oferecer maior taxa de transferência e melhor eficiência energética em plataformas NVIDIA Rubin.

O NVIDIA BlueField-4 impulsiona uma nova classe de armazenamento nativo de IA para a próxima fronteira da IA

O NVIDIA CMX estende a capacidade de GPU e permite o compartilhamento de cache KV de alta largura de banda em sistemas de IA em escala de rack. Ele oferece taxa de transferência mais alta e melhor eficiência energética para inferência de contexto longo e vários turnos do que o armazenamento tradicional.

Leia o Comunicado à Imprensa

Apresentando a plataforma de armazenamento de memória de contexto com tecnologia NVIDIA BlueField-4 para a próxima fronteira da IA

O NVIDIA CMX usa o NVIDIA BlueField‑4, o DOCA™ e o Spectrum‑X™ Ethernet para adicionar uma camada de memória de contexto em nível de pod que oferece maior taxa de transferência e eficiência energética para inferência de IA baseada em agentes em contexto longo.

Leia o Blog

Produtos

Infraestrutura de armazenamento nativa de IA, integrada de ponta a ponta

Desde a memória de contexto acelerada e a movimentação segura de dados até as malhas Ethernet e frameworks de inferência, o NVIDIA CMX é o resultado de um design conjunto extremo em computação, rede, armazenamento e software.

NVIDIA BlueField-4

A plataforma NVIDIA BlueField acelera o NVIDIA CMX, oferecendo desempenho, eficiência e inovação sem precedentes. O BlueField-4 gerencia unidades de estado sólido (SSDs) Non-Volatile Memory Express (NVMe), executa serviços de armazenamento e realiza o offload de integridade e criptografia de dados para cache KV com alta eficiência energética. Seus recursos de computação avançados e aceleradores de hardware definidos por software para rede, armazenamento e segurança criam uma infraestrutura segura e com eficiência energética para cada workload.

Transforme o Data Center com o NVIDIA BlueField

NVIDIA DOCA Memos

O NVIDIA DOCA Memos é um SDK otimizado para BlueField-4 e CMX que gerencia e compartilha o cache de KV em nós de computação de IA e dados de CMX, expondo APIs simples de valor-chave e transformando o flash conectado à Ethernet em uma camada de cache em nível de pod. Ele oferece acesso seguro e de baixa latência com integridade e criptografia aceleradas por hardware, para que as aplicações permaneçam sem estado, enquanto o CMX lida com o roteamento de cache KV e a reutilização em escala.

Acelere a inferência de IA com DOCA Memos

Rede Ethernet NVIDIA Spectrum-X

O NVIDIA Spectrum-X Ethernet fornece a malha de acesso remoto direto de memória (RDMA) de alto desempenho para acesso de baixa latência e alta largura de banda ao cache KV nativo de IA em todo o pod. Criado especificamente para IA, o Spectrum-X Ethernet usa controle de congestionamento avançado, roteamento adaptativo e o RDMA sobre Ethernet convergente (RoCE) sem perdas para minimizar a latência e a instabilidade, oferecendo desempenho consistente e repetível em ambientes grandes e de vários locatários. Isso permite que o CMX escale com alto desempenho previsível, maximizando a taxa de transferência e a capacidade de resposta para cargas de trabalho de inferência baseada em agentes e de vários turnos.

Escale a rede de IA com o Spectrum-X Ethernet

NVIDIA Dynamo

O NVIDIA Dynamo é um framework de serviço de inferência distribuída que faz com que o CMX e as camadas de armazenamento de contexto subjacentes pareçam perfeitas em todo o pod, roteando solicitações para onde o cache de KV já reside. Ao lidar com o posicionamento e a reutilização com reconhecimento de KV na camada de serviço, o Dynamo aumenta o número de tokens por segundo, reduz o tempo para o primeiro token e permite a reutilização de contexto em todo o pod para cargas de trabalho de vários turnos e vários agentes.

Acelere a inferência de IA com o NVIDIA Dynamo

Benefícios do produto

Memória de contexto acelerada para IA de contexto longo

O NVIDIA CMX apresenta uma camada de contexto dedicada que melhora a taxa de transferência sustentada e a eficiência energética para cargas de trabalho de contexto longo e com uso intensivo de cache KV, em comparação com as abordagens de armazenamento tradicionais.

Recupere energia para IA em gigaescala

Escale os serviços de IA com um nível de armazenamento altamente eficiente e otimizado por cache de KV que recupera a energia essencial, liberando mais do orçamento de energia do Data Center para GPUs, em vez do armazenamento tradicional.

Maximize a utilização, a taxa de transferência e a capacidade de resposta da GPU

Otimize os caminhos de dados e reduza os atrasos reutilizando o cache de KV pré-computado do nível CMX, em vez de recomputá-lo. Isso aumenta os tokens por segundo e a taxa de transferência para inferência baseada em agentes em vários turnos. O CMX reduz o tempo para o primeiro token e o tempo para o último token, para que as respostas sejam transmitidas mais cedo e concluídas mais rapidamente, mesmo com o crescimento de modelos, janelas de contexto e a concorrência.

Habilite o compartilhamento de cache KV inteligente e eficiente em todo o Pod de IA

Forneça acesso de alta velocidade e em todo o pod ao contexto nativo de IA para permitir que agentes de vários turnos coordenem, compartilhem estado e escalem de forma integrada à medida que as cargas de trabalho crescem, reduzindo a duplicação do cache KV e a capacidade retida em todos os nós.

Estenda a capacidade da GPU para inferência de contexto longo

Ofereça capacidade enorme de cache KV para suportar raciocínio de longo contexto, workflows de vários agentes, modelos de trilhões de parâmetros e janelas de contexto mais longas para muitos usuários simultâneos.

NVIDIA STX

O NVIDIA STX é uma arquitetura de referência modular para armazenamento de IA, projetada em conjunto com os principais parceiros de armazenamento e criada com base no software de computação acelerada, rede e IA da NVIDIA. O NVIDIA STX fornece a base para criar um mecanismo de dados universal que acelera todo o ciclo de vida de IA, desde o treinamento e a análise até a inferência baseada em agentes em tempo real.

Saiba Mais Sobre o NVIDIA STX

Ecossistema

Parceiros de armazenamento com memória de contexto do NVIDIA CMX

Recursos

Bases para a era do contexto

Plataforma de Armazenamento NVIDIA BlueField-4 STX É Lançada com Ampla Adoção Pelo Setor

O NVIDIA STX é um design de referência de armazenamento de IA modular desenvolvido em parceria com os principais provedores e construído com base no software de computação acelerada, rede e IA da NVIDIA. Saiba como ela impulsiona a plataforma de armazenamento NVIDIA BlueField‑4 STX que turbina a IA de agente e a infraestrutura de dados de IA.

Leia o Comunicado à Imprensa

Apresentamos a plataforma de armazenamento com memória de contexto e tecnologia NVIDIA BlueField-4

Uma nova classe de infraestrutura de armazenamento nativa de IA usa o BlueField para eliminar bloqueios de GPU de inferência, melhorar a eficiência energética e permitir o compartilhamento de KV de alta velocidade, para que a infraestrutura de inferência possa escalar.

Leia o Blog

Visão geral da solução da plataforma de armazenamento com memória de contexto NVIDIA CMX

O NVIDIA CMX fornece um caminho otimizado e de alta largura de banda que reduz a latência, o custo e a sobrecarga de energia em comparação com as abordagens de armazenamento de uso geral, ajudando a oferecer uma taxa de transferência até 5 vezes maior e uma eficiência energética até 5 vezes melhor.

Leia a Visão Geral da Solução

Comece Agora

Colabore com especialistas da NVIDIA

Conecte-se com a equipe de vendas empresariais da NVIDIA ou com o parceiro certo no programa NVIDIA Partner Network (NPN) para começar.

Contate a Equipe de Vendas Encontre um Parceiro

Precisa de ajuda para selecionar o parceiro ou produto certo?

Fale com um especialista da NVIDIA sobre as necessidades de sua empresa.

Fale Conosco

Mantenha-se em Dia com as Notícias da NVIDIA

Inscreva-se para receber as últimas notícias, atualizações e muito mais da NVIDIA.

Fique por Dentro