IA Física
Desenvolva world foundation models para avançar a IA física.
Visão Geral
O NVIDIA Cosmos™ é uma plataforma de world foundation models generativos, guardrails e um pipeline acelerado de processamento e curadoria de dados. Os desenvolvedores usam o Cosmos para acelerar o desenvolvimento de IA física para veículos autônomos (AVs), robôs e agentes de IA para análise de vídeo.
Modelos Abertos
Modelos generativos multimodais pré-treinados que os desenvolvedores podem usar para geração de mundos ou raciocínio, ou pós-treinar para desenvolver modelos especializados em IA física.
Um modelo de previsão de estado mundial de ponta que pode gerar até 30 segundos de vídeo contínuo a partir de entradas multimodais com velocidade, fidelidade e aderência imediata superiores.
Modelo multicontrole para escalar rapidamente uma única simulação ou vídeo espacial em vários ambientes e condições de iluminação.
Acelere entradas 3D de frameworks de simulação de IA física, como CARLA ou NVIDIA Isaac Sim™, para permitir pipelines de aumento de dados e geração de dados sintéticos totalmente controláveis.
Modelo de linguagem de visão e raciocínio (VLM) totalmente personalizável que se destaca em compreender o mundo físico como humanos usando raciocínio estruturado em vídeos e imagens.
Criado para capacitar agentes de IA em análise de vídeo em tempo de execução com compreensão espaço-temporal das operações urbanas e industriais, além de curadoria de dados de treinamento para robótica e veículos autônomos (VA) e tomada de decisões por robôs.
O NVIDIA Cosmos Curator é um framework que permite aos desenvolvedores filtrar, anotar e remover duplicações de grandes quantidades de dados de sensores necessários para o desenvolvimento de IA física, criando conjuntos de dados personalizados para atender às necessidades dos modelos.
Acelere o processamento e a geração eficientes de conjuntos de dados.
Casos de Uso
Use os world foundation models do Cosmos para simular, raciocinar e gerar dados para pipelines downstream em robótica, veículos autônomos e sistemas de visão industrial.
Os robôs precisam de dados vastos e diversificados de treinamento para perceber e interagir com seus ambientes com eficiência. Com Cosmos WFMs, desenvolvedores podem gerar dados sintéticos controláveis e de alta fidelidade para treinar a percepção e os modelos de políticas de robôs.
A diversidade de dados de sensores e alta fidelidade é fundamental para treinar, testar e validar veículos autônomos com segurança. Com os WFMs do Cosmos pós-treinados em dados de veículos, os desenvolvedores podem ampliar a diversidade de dados existente com novas condições meteorológicas, iluminação e geolocalizações, ou expandir para visualizações com vários sensores, economizando significativamente tempo e custos.
Esses agentes de IA podem analisar, resumir e interagir com transmissões de vídeo em tempo real ou gravadas para aprimorar a automação, a segurança e a eficiência operacional em ambientes industriais e urbanos.
O Cosmos Reason é um modelo de linguagem de visão personalizável (VLM) que capacita agentes de IA para análise de vídeo com compreensão visual avançada e raciocínio espaço-temporal do mundo físico. Esses agentes de IA respondem a perguntas em tempo real, enviam alertas rápidos e oferecem perspectivas contextuais ricas, tornando sistemas mais inteligentes e responsivos em implantações no edge e na nuvem.
IA Confiável
Os modelos, guardrails e tokenizadores do Cosmos estão disponíveis na Hugging Face e no GitHub, com recursos para enfrentar a escassez de dados no treinamento de modelos de IA física.
Infraestrutura de IA
As NVIDIA RTX PRO 6000 Blackwell Series Servers aceleram o desenvolvimento de IA física para robôs, veículos autônomos e agentes de IA em treinamento, geração de dados sintéticos, simulação e inferência.
Obtenha o desempenho máximo para os world foundation models do Cosmos na NVIDIA Blackwell GB200 para cargas de trabalho industriais de pós-treinamento e inferência.
Ecossistema
Os desenvolvedores de modelos dos setores de robótica, veículos autônomos e IA de visão estão usando o Cosmos para acelerar o desenvolvimento da IA física.
Recursos
Comece com a documentação. Os WFMs do Cosmos estão disponíveis no Hugging Face com scripts de inferência e pós-treinamento no GitHub. Os desenvolvedores também podem usar o Cosmos tokenizer disponível em /NVIDIA/cosmos-tokenizer no GitHub e na Hugging Face.
Os WFMs do Cosmos estão disponíveis sob uma Licença de Modelo Aberto da NVIDIA para todos.
Os scripts PyTorch estão disponíveis para todos os modelos da Cosmos para pós-treinamento. Leia a documentação para obter um guia passo a passo sobre o pós-treinamento.
Sim, você pode aproveitar o Cosmos para criar, a partir do zero, com seu foundation model ou arquitetura de modelo preferida. Você pode começar usando o NeMo Curator para o pré-processamento de dados de vídeo. Depois, compacte e decodifique seus dados com o tokenizador do Cosmos. Depois de processar os dados, você pode treinar ou refinar seu modelo usando o NVIDIA NeMo.
Com os microsserviços NVIDIA NIM™, você pode integrar facilmente seus modelos de IA física em suas aplicações na nuvem, data centers e workstations.
Você também pode usar o NVIDIA DGX Cloud para treinar modelos de IA e implantá-los em qualquer lugar, em escala.
Os três são WFMs com funções distintas:
A Cosmos Reason pode gerar novos e diversos textos a partir de um vídeo inicial para o Cosmos Predict, ou criticar e anotar dados sintéticos da Predict e Transfer.
O Omniverse cria simulações 3D realistas de tarefas do mundo real usando diferentes APIs generativas, SDKs e a tecnologia de renderização NVIDIA RTX.
Os desenvolvedores podem inserir simulações do Omniverse como vídeos instrutivos em modelos da Cosmos Transfer para gerar dados sintéticos fotorreais controláveis.
Juntos, o Omniverse fornece o ambiente de simulação antes e depois do treinamento, enquanto o Cosmos fornece os foundation models para gerar dados de vídeo e treinar modelos de IA física.
Saiba mais sobre o NVIDIA Omniverse.