IA física

NVIDIA Cosmos

Desarrolle la IA física más rápido con los modelos básicos más avanzados del mundo y marcos de procesamiento, entrenamiento y evaluación de datos abiertos.

Pruebe ahora   |   Blog

Cosmos 3

El modelo básico abierto de IA física

El primer omnimodelo con razonamiento nativo, generación de mundos y acciones. Basado en la arquitectura de Mezcla de transformadores.

Razonamiento de Power Vision AI

Utilícelo como modelo de lenguaje de visión (VLM) para razonar sobre objetos, interacciones e intenciones en escenarios complejos del mundo real. 

Destinado a alertas en tiempo real y generación de subtítulos de alta densidad en inspección de calidad, seguridad pública, supervisión del tráfico, logística y conducción autónoma.

Cree modelos de políticas

Acelere el aprendizaje de políticas de robots con NVIDIA Cosmos™ 3 como pilar para los modelos de acción mundial (WAM). 

Haga el posentrenamiento del modelo básico de mundo generalizado utilizando datos específicos de cámara y de materialización. El modelo de políticas adapta a escala las acciones aprendidas previamente a tareas, dominios y comportamientos específicos.

Simular mundos

Ejecútelo como un simulador de mundo controlable y fundamentado en la física para predecir múltiples enfoques, evaluar los resultados en un bucle cerrado y converger en el comportamiento correcto. 

Redimensione el bucle en diferentes entornos, tareas y condiciones para mejorar de forma continua sin riesgos en el mundo real.

Redimensione datos de vídeo sintéticos

Genere futuros infinitos y plausibles partiendo de texto, imagen, vídeo, sonido ambiental y datos de acción. 

Emplee la generación de vídeo como fuente de inspiración para entrenar la IA física sin estar limitado por lo que se ha capturado físicamente.

Power Vision AI Reasoning

Use as a vision language model (VLM) to reason over objects, interactions, and intent across complex real-world scenarios. 

For real-time alerts and dense captioning across quality inspection, public safety, traffic monitoring, logistics, and autonomous driving.

Build Policy Models

Accelerate robot policy learning with Cosmos 3 as the backbone for World Action Models (WAMs). 

Post-train the generalized world foundation model on specialized camera and embodiment data. The policy model adapts pre-learned actions to specific tasks, domains, and behaviors at scale.

Simulate Worlds

Run as a controllable, physics-grounded world simulator to predict multiple approaches, evaluate outcomes in a closed loop, and converge on the right behavior. 

Scale the loop across environments, tasks, and conditions to continuously improve without real-world risk.

Scale Synthetic Video Data

Generate infinite plausible futures from text, image, video, ambient sound and action input. 

Use video generation as imagination to train physical AI without being constrained by what's been physically captured.

Vídeo

Presentación de Cosmos

Escuche al fundador y director ejecutivo de NVIDIA, Jensen Huang, presentar NVIDIA Cosmos 3 en COMPUTEX 2026, el modelo básico más avanzado del mundo, diseñado para ayudar a los desarrolladores a crear sistemas autónomos que pueden comprender, simular y actuar en el mundo real.

Opciones iniciales

Empezar con NVIDIA Cosmos

1

¿Preparado para crear? Acceda a modelos abiertos y a código directamente.

2

¿Todavía no está preparado para crear? Pruebe los modelos de Cosmos en nuestro catálogo alojado.

3

¿Necesita ayuda? Empiece rápidamente con nuestras prácticas recetas de modelos.

Desarrollar con Cosmos

Aproveche la misma tecnología que impulsa Cosmos 3. Marcos y habilidades abiertos para que los desarrolladores de todo el mundo puedan personalizar, ampliar y contribuir a la IA física.

Selección de datos

Filtre, anote y deduplique rápidamente vastas cantidades de datos de sensores con Cosmos Curator.

Revise y califique los resultados de vídeo generativo a escala con Cosmos Evaluator.

Entrenamiento y aceleración

Cree, posentrene o implemente modelos de mundo con agilidad usando marcos abiertos de posentrenamiento, evaluación y optimización, así como scripts y habilidades de inferencia.

Habilidades de agentes para la generación de datos sintéticos

Convierta a los agentes de codificación en expertos en datos sintéticos para propiciar el desarrollo de IA física.

Casos de uso

Cómo Cosmos acelera la IA en todos los sectores

Utilice los WFM de Cosmos para simular, razonar y generar datos para procesos posteriores en robótica, vehículos autónomos y sistemas de visión industrial.

Aprendizaje de robots

Cree un conjunto de políticas de aprendizaje de robots que permita a los agentes materializados operar en entornos del mundo real en condiciones visibles e invisibles.

  • Posentrene Cosmos 3 en función de tareas específicas de cada materialización, entornos, configuraciones de cámaras o sensores y políticas
  • Ejecute simulaciones de bucle cerrado físicamente precisas
  • Cree una canalización de aumento y evaluación de datos sintéticos de extremo a extremo mediante las habilidades de agentes basadas en Cosmos

Entrenamiento de vehículos autónomos

Genere datos de sensores personalizados, diversos y de alta fidelidad para entrenar, probar y validar vehículos autónomos de forma segura. 

  • Incremente la diversidad de datos existentes con nuevos datos meteorológicos, de iluminación y de geolocalización
  • Posentrene para ampliar a vistas multisensor
  • Cree una canalización de aumento y evaluación de datos sintéticos de extremo a extremo mediante las habilidades de agentes basadas en Cosmos

Agentes de IA para análisis de video

Mejore la automatización, la seguridad y la eficiencia operativa tanto en entornos industriales como en urbanos. 

Con Cosmos, los agentes de IA pueden analizar, resumir e interactuar con transmisiones de vídeo en tiempo real o grabadas para:

  • Envíe alertas contextuales en tiempo real
  • Interactúe con sus vídeos y extraiga información de las señales de cámaras en directo o de las bibliotecas de vídeo a gran escala
  • Cree agentes de IA de análisis de vídeo con NVIDIA Metropolis Blueprint para la búsqueda y el resumen de vídeo
  • Genere datos de entrenamiento sintéticos para potenciar aún más la precisión de comprensión

Rendimiento

Se ejecuta mejor en la IA de NVIDIA

Cosmos 3 está optimizado para proporcionar el mejor rendimiento en el hardware de NVIDIA. Los servidores de la serie NVIDIA RTX PRO™ 6000 Blackwell aceleran el desarrollo de la IA física para robots, vehículos autónomos y agentes de IA en el entrenamiento, la generación de datos sintéticos, la simulación y la inferencia.

Libere el rendimiento máximo para los modelos fundamentales de Cosmos en NVIDIA Blackwell GB200 para cargas de trabajo industriales posteriores al entrenamiento e inferencia.

Ecosistema

Adoptado por los principales innovadores en el campo de la IA física

Los desarrolladores de modelos de los sectores de la robótica, los vehículos autónomos y la visión artificial utilizan Cosmos para acelerar el desarrollo de la IA física.

Próximos pasos

Únase a la comunidad de Cosmos

Conecte con expertos de Cosmos, interactúe con otros desarrolladores, proporcione comentarios sobre modelos y acceda a un aprendizaje continuo a través de transmisiones en directo y recetas.

Libro de cocina de Cosmos

Una guía integral para trabajar con el ecosistema de NVIDIA Cosmos para aplicaciones específicas de dominio del mundo real en robótica, simulación, sistemas autónomos y comprensión de escenas físicas.

Cree agentes de IA para análisis de vídeo

Utilice Cosmos Reason con el plano de NVIDIA para la búsqueda y resumen de vídeos (VSS) para crear agentes de IA para una comprensión de vídeo escalable en tiempo real.

Recursos

Lo último de los desarrolladores de Cosmos

Preguntas frecuentes

Cosmos 3 se basa en la arquitectura de mezcla de transformadores (Mixture of Transformers). Los módulos de razonamiento y generador utilizan diferentes transformadores para lograr una generación y un rendimiento de alta eficiencia. Por lo tanto, el modelo primero razona y luego genera, lo cual se traduce en una precisión física puntera en todas las funciones. Más información sobre la arquitectura aquí.

Los WFM de Cosmos están disponibles con una licencia de modelo abierto de NVIDIA para todos.

Cosmos 3 está disponible de forma abierta con scripts de posentrenamiento en GitHub para cada modalidad y módulo. Además, NVIDIA TAO 7 brinda un conjunto de habilidades y herramientas de agentes para ajustar con precisión los modelos de IA de visión, incluido Cosmos 3, con agentes de codificación e indicaciones de lenguaje natural.

Sí, puede aprovechar Cosmos para crear desde cero con su modelo básico o arquitectura de modelos preferidos. Puede empezar por utilizar Cosmos Curator para el preprocesamiento de datos de vídeo. Luego comprima y descodifique sus datos con el tokenizador Cosmos. Una vez que haya procesado los datos, podrá entrenar o perfeccionar su modelo. 

Utilizando los microservicios NVIDIA NIM™, puede integrar fácilmente sus modelos de IA física en sus aplicaciones en la nube, los centros de datos y las estaciones de trabajo.

También puede utilizar NVIDIA DGX Cloud para entrenar modelos de IA e implementarlos a escala en cualquier lugar.

Cosmos 3 es un omnimodelo que puede generar texto, imagen, vídeo, sonido y acción. Mientras que Cosmos 2.5 y Cosmos 2 mantuvieron la percepción y la generación como modelos independientes, y las modalidades se limitaban a texto, imagen y vídeo.

Omniverse crea simulaciones 3D realistas de tareas del mundo real utilizando diferentes API generativas, SDK y la tecnología de renderizado NVIDIA RTX.

Los desarrolladores pueden introducir simulaciones de Omniverse como vídeos de instrucciones en modelos de Cosmos Transfer para generar datos sintéticos fotorrealistas y controlables.

En conjunto, Omniverse proporciona el entorno de simulación antes y después del entrenamiento, mientras que Cosmos provee los modelos básicos para generar datos de vídeo y entrenar modelos de IA física.

Más información sobre NVIDIA Omniverse.