IA Física

NVIDIA Cosmos

Desenvolva world foundation models para avançar a IA física.

Cookbook   |   Documentação   |   Fórum

Visão Geral

O Que É o NVIDIA Cosmos?

NVIDIA Cosmos™ é uma plataforma criada especificamente para IA física, com world foundation models (WFMs) de ponta, guardrails e um pipeline acelerado de processamento e curadoria de dados. Os desenvolvedores usam o Cosmos para acelerar o desenvolvimento de IA física para veículos autônomos (AVs), robôs e agentes de IA para análise de vídeo.

Personalização do NVIDIA Cosmos para Qualquer Caso de Uso de IA Física

O Cosmos Cookbook oferece um guia abrangente para desenvolvedores de IA física aprenderem, usarem e pós-treinarem os modelos baseados em Cosmos da NVIDIA, incluindo novas aplicações como LidarGen, Cosmos Policy e muito mais.

Como Dimensionar a Geração de Dados para IA Física com o NVIDIA Cosmos Cookbook

Neste blog, vamos apresentar exemplos das receitas do Cosmos Transfer para alterar os planos de fundo de vídeo, adicionar novas condições ambientais aos dados de direção, gerar dados para navegação de robótica e gerar dados sintéticos para cenários de tráfego urbano.

Modelos Abertos

Modelos Cosmos para IA Física

Modelos generativos multimodais pré-treinados que os desenvolvedores podem usar para geração de mundos ou raciocínio, ou pós-treinar para desenvolver modelos de IA física.

Cosmos Predict

Um modelo de ponta de previsão de estado mundial que pode gerar até 30 segundos de vídeo contínuo a partir de entradas multimodais com velocidade superior, fidelidade e aderência a prompts. Desbloqueie a previsão avançada e o planejamento de cenários para robótica e agentes de IA, prevendo estados futuros de ambientes dinâmicos.

Cosmos Transfer

O modelo multicontrole dimensiona rapidamente uma única simulação ou vídeo espacial em vários ambientes e condições de iluminação. Acelere as entradas 3D de frameworks de simulação de IA física, como CARLA ou NVIDIA Isaac Sim™, para permitir pipelines de aumento de dados e geração de dados sintéticos totalmente controláveis.

Cosmos Reason

O modelo de linguagem de visão (VLM) e raciocínio aberto, personalizável para IA física permite que robôs e agentes de IA visual raciocinem como seres humanos. Ele pode utilizar conhecimento prévio, compreensão da física e senso comum para entender o mundo real e como interagir com ele.

Processamento de Dados

O NVIDIA Cosmos Curator é um framework que permite aos desenvolvedores filtrar, anotar e remover duplicações de grandes quantidades de dados de sensores necessários para o desenvolvimento de IA física, criando conjuntos de dados personalizados para atender às necessidades de modelos. Com o NVIDIA Cosmos Dataset Search (CDS), os desenvolvedores podem consultar instantaneamente esses conjuntos de dados e recuperar cenários para pós-treinamento segmentado.

Acelere o processamento e a geração eficientes de conjuntos de dados.

Casos de Uso

Como a Cosmos Acelera a IA em Todos os Setores

Use os WFMs do Cosmos para simular, raciocinar e gerar dados para pipelines downstream em robótica, veículos autônomos e sistemas de visão industrial.

Aprendizagem de Robôs

Os robôs precisam de dados vastos e diversificados de treinamento para perceber e interagir com seus ambientes com eficiência. Com Cosmos WFMs, desenvolvedores podem gerar dados sintéticos controláveis e de alta fidelidade para treinar a percepção e os modelos de políticas de robôs.

Treinamento de Veículos Autônomos

A diversidade de dados de sensores e alta fidelidade é fundamental para treinar, testar e validar veículos autônomos com segurança. Com os WFMs do Cosmos pós-treinados em dados de veículos, os desenvolvedores podem ampliar a diversidade de dados existente com novas condições meteorológicas, iluminação e geolocalizações, ou expandir para visualizações com vários sensores, economizando significativamente tempo e custos.

Agentes de IA para Análise de Vídeo

Esses agentes de IA podem analisar, resumir e interagir com transmissões de vídeo em tempo real ou gravadas para aprimorar a automação, a segurança e a eficiência operacional em ambientes industriais e urbanos. O Cosmos Reason impulsiona os agentes de IA de análise de vídeo para oferecer respostas a perguntas em tempo real, alertas rápidos e insights contextuais ricos, impulsionando sistemas mais inteligentes e responsivos em implantações de edge e cloud.

IA Confiável

Apoio à Comunidade de IA Física

Os modelos, guardrails e tokenizadores do Cosmos estão disponíveis na Hugging Face e no GitHub, com recursos para enfrentar a escassez de dados no treinamento de modelos de IA física.

Infraestrutura de IA

Obtenha o Melhor Desempenho com a NVIDIA Blackwell

As NVIDIA RTX PRO 6000 Blackwell Series Servers aceleram o desenvolvimento de IA física para robôs, veículos autônomos e agentes de IA em treinamento, geração de dados sintéticos, simulação e inferência.

Obtenha o desempenho máximo para os world foundation models do Cosmos na NVIDIA Blackwell GB200 para cargas de trabalho industriais de pós-treinamento e inferência.

Ecossistema

Adotado pelos Principais Inovadores de IA Física

Os desenvolvedores de modelos dos setores de robótica, veículos autônomos e IA de visão estão usando o Cosmos para acelerar o desenvolvimento da IA física.

Próximos Passos

Pronto para Começar?

Teste um world foundation model no catálogo de APIs da NVIDIA ou comece a criar seus próprios modelos de mundo usando o Cosmos.

Cosmos Cookbook

Um guia abrangente para trabalhar com o ecossistema NVIDIA Cosmos para aplicações reais e específicas de domínio em robótica, simulação, sistemas autônomos e compreensão de cenas físicas.

Crie Agentes de IA para Análise de Vídeo

Use o Cosmos Reason com o NVIDIA Blueprint para pesquisa e resumo de vídeo (VSS) para criar agentes de IA para compreensão de vídeo escalável e em tempo real.

Recursos

O Mais Recente dos Desenvolvedores do Cosmos

Perguntas Frequentes

Comece com a documentação. Os WFMs do Cosmos estão disponíveis na Hugging Face com scripts de inferência e pós-treinamento no GitHub.

Os WFMs do Cosmos estão disponíveis sob uma Licença de Modelo Aberto da NVIDIA para todos.

Os scripts PyTorch estão disponíveis para todos os modelos da Cosmos para pós-treinamento. Consulte o novo Cosmos Cookbook, que contém receitas passo a passo e roteiros de pós-treinamento para criar, personalizar e implantar rapidamente os world foundation models do Cosmos da NVIDIA para robótica e sistemas autônomos.

Sim, você pode aproveitar o Cosmos para criar, a partir do zero, com seu foundation model ou arquitetura de modelo preferida. Você pode começar usando o NeMo Curator para o pré-processamento de dados de vídeo. Depois, compacte e decodifique seus dados com o tokenizador do Cosmos. Depois de processar os dados, você pode treinar ou refinar seu modelo usando o NVIDIA NeMo.

Com os microsserviços NVIDIA NIM™, você pode integrar facilmente seus modelos de IA física em suas aplicações na nuvem, data centers e workstations.

Você também pode usar o NVIDIA DGX Cloud para treinar modelos de IA e implantá-los em qualquer lugar, em escala.

Os três são WFMs com funções distintas:

  • O Cosmos Predict gera diversas cenas de vídeo a partir de prompts de texto, imagem ou vídeo, ideais para pós-treinamento em assuntos como robôs ou carros autônomos.
  • O Cosmos Transfer aplica transferência de estilos de vários controles (mudanças de iluminação e ambientes) em vídeos baseados em física, geralmente criados em simuladores como o NVIDIA Omniverse.
  • O Cosmos Reason responde a consultas de texto ao raciocinar sobre entradas de vídeos e imagens.

A Cosmos Reason pode gerar novos e diversos textos a partir de um vídeo inicial para o Cosmos Predict, ou criticar e anotar dados sintéticos da Predict e Transfer.

O Omniverse cria simulações 3D realistas de tarefas do mundo real usando diferentes APIs generativas, SDKs e a tecnologia de renderização NVIDIA RTX.

Os desenvolvedores podem inserir simulações do Omniverse como vídeos instrutivos em modelos da Cosmos Transfer para gerar dados sintéticos fotorreais controláveis.

Juntos, o Omniverse fornece o ambiente de simulação antes e depois do treinamento, enquanto o Cosmos fornece os foundation models para gerar dados de vídeo e treinar modelos de IA física.

Saiba mais sobre o NVIDIA Omniverse.