IA Física

NVIDIA Cosmos

Desarrolle world foundation models para el avance de la IA física.

Descripción General

¿Qué es NVIDIA Cosmos?

NVIDIA Cosmos™ es una plataforma de world foundation models (WFM) generativos de última generación, barreras de seguridad y un pipeline acelerado de procesamiento y curaduría de datos. Los desarrolladores usan Cosmos para acelerar el desarrollo de IA física para vehículos autónomos (VA), robots y agentes de IA de análisis de video.

NVIDIA Abre los Portales al Mundo de la Robótica con los Nuevos Modelos de IA Física de Cosmos

Descubra la manera en que las nuevas versiones de los modelos de NVIDIA Cosmos, como Cosmos Transfer y Reason, facilitan la generación y la comprensión de mundos para vehículos autónomos, robots y agentes de IA de análisis de video.

Pioneros de la Industria en el Desarrollo de Agentes Más Inteligentes con los Modelos de Razonamiento de NVIDIA Nemotron y Cosmos

Los modelos de razonamiento abiertos proporcionan un pensamiento más rápido y extendido a fin de generar resultados más inteligentes para los agentes de IA en servicio al cliente, manufactura, logística y robótica.

Modelos Abiertos

Modelos de Cosmos para IA Física

Modelos generativos multimodales preentrenados que los desarrolladores pueden usar de inmediato para la generación o el razonamiento de mundos, o posentrenar para desarrollar modelos de IA física especializados.

Cosmos Predict

Un modelo de predicción de estado del mundo de vanguardia que puede generar hasta 30 segundos de video continuo a partir de entradas multimodales con excelente velocidad, fidelidad y adherencia a las indicaciones.

Cosmos Transfer

Modelo de múltiples controles para escalar una sola simulación o video espacial rápidamente en varios entornos y condiciones de iluminación.

Acelere las entradas 3D de los frameworks de simulación de IA física, como CARLA o NVIDIA Isaac Sim™, para habilitar pipelines de aumento de datos y generación de datos sintéticos totalmente controlables.

Cosmos Reason

Modelo de lenguaje de visión (VLM) totalmente personalizable y de razonamiento que sobresale en comprender el mundo físico como los humanos mediante razonamiento estructurado de videos e imágenes.

Diseñado para impulsar a los agentes de IA de análisis de video en tiempo de ejecución mediante una comprensión espaciotemporal de las operaciones de ciudades e industriales, selección de datos de entrenamiento para robótica y vehículos autónomos (VA) y toma de decisiones de robots.

Selección de Datos

NVIDIA Cosmos Curator es un framework que les permite a los desarrolladores filtrar, anotar y deduplicar rápidamente grandes cantidades de datos de sensores necesarios para el desarrollo de la IA física, lo que crea conjuntos de datos personalizados para satisfacer las necesidades de los modelos.

Acelere el procesamiento y la generación eficientes de conjuntos de datos.

Casos de Uso

Cómo Cosmos Acelera la IA en Todas las Industrias

Use los world foundation models de Cosmos para simular, razonar y generar datos para pipelines posteriores en robótica, vehículos autónomos y sistemas de visión industrial.

Aprendizaje de Robots

Los robots necesitan datos de entrenamiento vastos y diversos para percibir e interactuar de manera efectiva con sus entornos. Con los WFM de Cosmos, los desarrolladores pueden generar datos sintéticos controlables y de alta fidelidad para entrenar la percepción y los modelos de políticas de robots.

Entrenamiento de Vehículos Autónomos

Los datos de sensores diversos y de alta fidelidad son fundamentales para el entrenamiento, las pruebas y la validación de los vehículos autónomos de forma segura. Con los WFM de Cosmos, posentrenados con datos de vehículos, los desarrolladores pueden amplificar la diversidad de datos existente con nuevo clima, iluminación y ubicaciones geográficas, o expandirse a vistas de múltiples sensores, lo que ahorra una cantidad significativa de tiempo y costos.

Agentes de IA de Análisis de Video

Estos agentes de IA pueden analizar, resumir e interactuar con transmisiones de video en tiempo real o grabadas para mejorar la automatización, la seguridad y la eficiencia operativa en entornos industriales y urbanos.

Cosmos Reason es un modelo de lenguaje de visión (VLM) personalizable que impulsa a los agentes de IA de análisis de video con comprensión visual avanzada y razonamiento espaciotemporal del mundo físico. Estos agentes de IA ofrecen respuestas a preguntas en tiempo real, alertas rápidas y abundante información contextual, lo que impulsa sistemas más inteligentes y con mayor capacidad de respuesta en las implementaciones de edge y nube.

IA Fiable

Apoyo a la Comunidad de IA Física

Hay modelos, barreras de seguridad y tokenizadores de Cosmos disponibles en Hugging Face y GitHub, con recursos para hacerle frente a la escasez de datos en el entrenamiento de modelos de IA física.

Infraestructura de IA

Obtenga el Mejor Desempeño con NVIDIA Blackwell

Los servidores NVIDIA RTX PRO 6000 Serie Blackwell aceleran el desarrollo de la IA física para robots, vehículos autónomos y agentes de IA en entrenamiento, generación de datos sintéticos, simulación e inferencia.

Obtenga el máximo desempeño en los modelos base del mundo de Cosmos con NVIDIA Blackwell GB200, para cargas de trabajo industriales de posentrenamiento e inferencia.

Ecosistema

Adoptado por los Principales Innovadores de la IA física

Los desarrolladores de modelos de las industrias de robótica, vehículos autónomos y IA de visión están usando Cosmos para acelerar el desarrollo de la IA física.

Próximos Pasos

¿Todo Listo para Comenzar?

Pruebe un world foundation models en el catálogo de API de NVIDIA o comience a desarrollar sus propios modelos del mundo mediante Cosmos.

Posentrene WFM

Los WFM de Cosmos están hechos específicamente para posentrenamiento, lo que otorga poderosos modelos del mundo descendentes que aceleran el desarrollo de la IA física.

Procese Datos de Video para Modelos del Mundo

Aproveche un pipeline acelerado de procesamiento y selección de datos impulsado por NVIDIA Cosmos y optimizado para las GPU de data centers de NVIDIA.

Recursos

Lo Último de los Desarrolladores de Cosmos

Preguntas Frecuentes

Comience con la documentación. Los WFM de Cosmos están abiertamente disponibles en Hugging Face con scripts de inferencia y posentrenamiento en GitHub. Los desarrolladores también pueden usar el tokenizador de Cosmos desde /NVIDIA/cosmos-tokenizer en GitHub y Hugging Face.

Los WFM de Cosmos están disponibles bajo una Licencia de Modelo Abierto de NVIDIA para todos.

Los scripts de PyTorch están abiertamente disponibles para todos los modelos de Cosmos para su postentrenamiento. Lea la documentación para obtener una guía paso a paso sobre el postentrenamiento.

Sí, puede aprovechar Cosmos para desarrollar desde cero con su arquitectura de modelos o modelo base preferido. Puede comenzar por usar NeMo Curator para el preprocesamiento de datos de video. A continuación, comprima y decodifique sus datos con Cosmos tokenizer. Una vez que haya procesado los datos, puede entrenar o ajustar su modelo con NVIDIA NeMo.

Mediante los microservicios NVIDIA NIM™ puede integrar fácilmente sus modelos de IA física en sus aplicaciones en la nube, data centers y workstations.

También puede usar NVIDIA DGX Cloud para entrenar modelos de IA e implementarlos en cualquier lugar a gran escala.

Los tres son WFM con distintos roles:

  • Cosmos Predict genera diversas escenas de video a partir de instrucciones de texto, imágenes o video; ideales para el ajuste fino de elementos como robots o automóviles de conducción autónoma.
  • Cosmos Transfer aplica transferencia de estilos de controles múltiples (con cambio de la iluminación y los entornos) en videos de física, a menudo creados en simuladores como NVIDIA Omniverse.
  • Cosmos Reason responde a consultas de texto mediante razonamiento sobre entradas de video e imágenes.

Cosmos Reason puede generar instrucciones de texto nuevas y diversas a partir de un video de inicio en Cosmos Predict, o evaluar y anotar datos sintéticos de Predict y Transfer.

Omniverse crea simulaciones 3D realistas de tareas del mundo real mediante el uso de diferentes API generativas, SDK y la tecnología de renderización NVIDIA RTX.

Los desarrolladores pueden ingresar simulaciones de Omniverse como videos de instrucciones a los modelos Cosmos Transfer para generar datos sintéticos fotorrealistas y controlables.

En conjunto, Omniverse proporciona el entorno de simulación antes y después del entrenamiento, mientras que Cosmos proporciona los modelos base para generar datos de video y entrenar modelos de IA física.

Más información sobre NVIDIA Omniverse.