IA física
Desarrolle la IA física más rápido con los modelos básicos más avanzados del mundo y marcos de procesamiento, entrenamiento y evaluación de datos abiertos.
Cosmos 3
El primer omnimodelo con razonamiento nativo, generación de mundos y acciones. Basado en la arquitectura de Mezcla de transformadores.
Utilícelo como modelo de lenguaje de visión (VLM) para razonar sobre objetos, interacciones e intenciones en escenarios complejos del mundo real.
Destinado a alertas en tiempo real y generación de subtítulos de alta densidad en inspección de calidad, seguridad pública, supervisión del tráfico, logística y conducción autónoma.
Acelere el aprendizaje de políticas de robots con NVIDIA Cosmos™ 3 como pilar para los modelos de acción mundial (WAM).
Haga el posentrenamiento del modelo básico de mundo generalizado utilizando datos específicos de cámara y de materialización. El modelo de políticas adapta a escala las acciones aprendidas previamente a tareas, dominios y comportamientos específicos.
Ejecútelo como un simulador de mundo controlable y fundamentado en la física para predecir múltiples enfoques, evaluar los resultados en un bucle cerrado y converger en el comportamiento correcto.
Redimensione el bucle en diferentes entornos, tareas y condiciones para mejorar de forma continua sin riesgos en el mundo real.
Genere futuros infinitos y plausibles partiendo de texto, imagen, vídeo, sonido ambiental y datos de acción.
Emplee la generación de vídeo como fuente de inspiración para entrenar la IA física sin estar limitado por lo que se ha capturado físicamente.
Opciones iniciales
Aproveche la misma tecnología que impulsa Cosmos 3. Marcos y habilidades abiertos para que los desarrolladores de todo el mundo puedan personalizar, ampliar y contribuir a la IA física.
Filtre, anote y deduplique rápidamente vastas cantidades de datos de sensores con Cosmos Curator.
Revise y califique los resultados de vídeo generativo a escala con Cosmos Evaluator.
Cree, posentrene o implemente modelos de mundo con agilidad usando marcos abiertos de posentrenamiento, evaluación y optimización, así como scripts y habilidades de inferencia.
Convierta a los agentes de codificación en expertos en datos sintéticos para propiciar el desarrollo de IA física.
Casos de uso
Cree un conjunto de políticas de aprendizaje de robots que permita a los agentes materializados operar en entornos del mundo real en condiciones visibles e invisibles.
Genere datos de sensores personalizados, diversos y de alta fidelidad para entrenar, probar y validar vehículos autónomos de forma segura.
Mejore la automatización, la seguridad y la eficiencia operativa tanto en entornos industriales como en urbanos.
Con Cosmos, los agentes de IA pueden analizar, resumir e interactuar con transmisiones de vídeo en tiempo real o grabadas para:
Rendimiento
Cosmos 3 está optimizado para proporcionar el mejor rendimiento en el hardware de NVIDIA. Los servidores de la serie NVIDIA RTX PRO™ 6000 Blackwell aceleran el desarrollo de la IA física para robots, vehículos autónomos y agentes de IA en el entrenamiento, la generación de datos sintéticos, la simulación y la inferencia.
Libere el rendimiento máximo para los modelos fundamentales de Cosmos en NVIDIA Blackwell GB200 para cargas de trabajo industriales posteriores al entrenamiento e inferencia.
Ecosistema
Los desarrolladores de modelos de los sectores de la robótica, los vehículos autónomos y la visión artificial utilizan Cosmos para acelerar el desarrollo de la IA física.
Recursos
Cosmos 3 se basa en la arquitectura de mezcla de transformadores (Mixture of Transformers). Los módulos de razonamiento y generador utilizan diferentes transformadores para lograr una generación y un rendimiento de alta eficiencia. Por lo tanto, el modelo primero razona y luego genera, lo cual se traduce en una precisión física puntera en todas las funciones. Más información sobre la arquitectura aquí.
Los WFM de Cosmos están disponibles con una licencia de modelo abierto de NVIDIA para todos.
Cosmos 3 está disponible de forma abierta con scripts de posentrenamiento en GitHub para cada modalidad y módulo. Además, NVIDIA TAO 7 brinda un conjunto de habilidades y herramientas de agentes para ajustar con precisión los modelos de IA de visión, incluido Cosmos 3, con agentes de codificación e indicaciones de lenguaje natural.
Sí, puede aprovechar Cosmos para crear desde cero con su modelo básico o arquitectura de modelos preferidos. Puede empezar por utilizar Cosmos Curator para el preprocesamiento de datos de vídeo. Luego comprima y descodifique sus datos con el tokenizador Cosmos. Una vez que haya procesado los datos, podrá entrenar o perfeccionar su modelo.
Utilizando los microservicios NVIDIA NIM™, puede integrar fácilmente sus modelos de IA física en sus aplicaciones en la nube, los centros de datos y las estaciones de trabajo.
También puede utilizar NVIDIA DGX Cloud para entrenar modelos de IA e implementarlos a escala en cualquier lugar.
Cosmos 3 es un omnimodelo que puede generar texto, imagen, vídeo, sonido y acción. Mientras que Cosmos 2.5 y Cosmos 2 mantuvieron la percepción y la generación como modelos independientes, y las modalidades se limitaban a texto, imagen y vídeo.
Omniverse crea simulaciones 3D realistas de tareas del mundo real utilizando diferentes API generativas, SDK y la tecnología de renderizado NVIDIA RTX.
Los desarrolladores pueden introducir simulaciones de Omniverse como vídeos de instrucciones en modelos de Cosmos Transfer para generar datos sintéticos fotorrealistas y controlables.
En conjunto, Omniverse proporciona el entorno de simulación antes y después del entrenamiento, mientras que Cosmos provee los modelos básicos para generar datos de vídeo y entrenar modelos de IA física.
Más información sobre NVIDIA Omniverse.