Ecossistema de armazenamento de IA para data centers
Rearquitetando o armazenamento de inferência para a próxima fronteira da IA.
Visão Geral
O armazenamento de memória de contexto NVIDIA® CMX™ é uma camada de contexto nativa de IA para inferência de IA de contexto longo, de vários turnos e baseada em agentes. Com tecnologia do processador de armazenamento NVIDIA BlueField®‑4, ele estende a memória da GPU com uma camada de contexto compartilhada em nível de pod, otimizada para cache efêmero de chave-valor (KV). A plataforma fornece um caminho de alta largura de banda que reduz a latência, o custo e a sobrecarga de energia para cargas de trabalho de inferência em larga escala, ajudando a oferecer maior taxa de transferência e melhor eficiência energética em plataformas NVIDIA Rubin.
Produtos
Desde a memória de contexto acelerada e a movimentação segura de dados até as malhas Ethernet e frameworks de inferência, o NVIDIA CMX é o resultado de um design conjunto extremo em computação, rede, armazenamento e software.
Benefícios do produto
O NVIDIA CMX apresenta uma camada de contexto dedicada que melhora a taxa de transferência sustentada e a eficiência energética para cargas de trabalho de contexto longo e com uso intensivo de cache KV, em comparação com as abordagens de armazenamento tradicionais.
Escale os serviços de IA com um nível de armazenamento altamente eficiente e otimizado por cache de KV que recupera a energia essencial, liberando mais do orçamento de energia do Data Center para GPUs, em vez do armazenamento tradicional.
Otimize os caminhos de dados e reduza os atrasos reutilizando o cache de KV pré-computado do nível CMX, em vez de recomputá-lo. Isso aumenta os tokens por segundo e a taxa de transferência para inferência baseada em agentes em vários turnos. O CMX reduz o tempo para o primeiro token e o tempo para o último token, para que as respostas sejam transmitidas mais cedo e concluídas mais rapidamente, mesmo com o crescimento de modelos, janelas de contexto e a concorrência.
Forneça acesso de alta velocidade e em todo o pod ao contexto nativo de IA para permitir que agentes de vários turnos coordenem, compartilhem estado e escalem de forma integrada à medida que as cargas de trabalho crescem, reduzindo a duplicação do cache KV e a capacidade retida em todos os nós.
Ofereça capacidade enorme de cache KV para suportar raciocínio de longo contexto, workflows de vários agentes, modelos de trilhões de parâmetros e janelas de contexto mais longas para muitos usuários simultâneos.
O NVIDIA STX é uma arquitetura de referência modular para armazenamento de IA, projetada em conjunto com os principais parceiros de armazenamento e criada com base no software de computação acelerada, rede e IA da NVIDIA. O NVIDIA STX fornece a base para criar um mecanismo de dados universal que acelera todo o ciclo de vida de IA, desde o treinamento e a análise até a inferência baseada em agentes em tempo real.
Ecossistema
Recursos
Conecte-se com a equipe de vendas empresariais da NVIDIA ou com o parceiro certo no programa NVIDIA Partner Network (NPN) para começar.
Fale com um especialista da NVIDIA sobre as necessidades de sua empresa.
Inscreva-se para receber as últimas notícias, atualizações e muito mais da NVIDIA.