IA física

NVIDIA Cosmos

Desarrolle modelos fundacionales mundiales para avanzar en la IA física.

Descripción

¿Qué es NVIDIA Cosmos?

NVIDIA Cosmos™ es una plataforma creada específicamente para la IA física, con modelos fundamentales mundiales (WFM) generativos de vanguardia, barreras de protección y un proceso de procesamiento y selección de datos acelerado. Los desarrolladores utilizan Cosmos para acelerar el desarrollo de la IA física para vehículos autónomos (VA), robots y agentes de IA de análisis de vídeo.

Personalización de NVIDIA Cosmos para cualquier caso de uso de IA física

El Cosmos Cookbook ofrece una guía completa para que los desarrolladores de IA física aprendan, utilicen y entrenen posteriormente los modelos basados en Cosmos de NVIDIA, incluidas nuevas aplicaciones como LidarGen, Cosmos Policy y mucho más.

Cómo escalar la generación de datos para la IA física con NVIDIA Cosmos Cookbook

En este blog, probaremos las recetas de Cosmos Transfer para cambiar los fondos de vídeo, añadir nuevas condiciones ambientales a los datos de conducción, generar datos para la navegación robótica y generar datos sintéticos para escenarios de tráfico urbano.

Modelos abiertos

Modelos de Cosmos para la IA física

Modelos generativos multimodales preentrenados que los desarrolladores pueden utilizar para la generación o el razonamiento mundiales, o bien entrenarlos posteriormente para desarrollar modelos de IA física.

Cosmos Predict

Un modelo de predicción del estado mundial de vanguardia que puede generar hasta 30 segundos de vídeo continuo a partir de entradas multimodales con velocidad, fidelidad y cumplimiento inmediato superiores. Desbloquee la previsión avanzada y la planificación de escenarios para los agentes de robótica e IA al predecir los estados futuros de los entornos dinámicos.

Cosmos Transfer

El modelo multicontrol escala rápidamente una única simulación o vídeo espacial en varios entornos y condiciones de iluminación. Acelere las entradas 3D de marcos de simulación de IA física, como CARLA o NVIDIA Isaac Sim™, para permitir canalizaciones de aumento de datos y generación de datos sintéticos completamente controlables.

Cosmos Reason

El modelo de lenguaje de visión (VLM) abierto, personalizable y de razonamiento para la IA física permite a los robots y agentes de IA de visión razonar como los humanos. Puede utilizar el conocimiento previo, la comprensión de la física y el sentido común para comprender el mundo real y cómo interactuar con él.

Procesamiento de datos

NVIDIA Cosmos Curator es un marco que permite a los desarrolladores filtrar, anotar y deduplicar rápidamente grandes cantidades de datos de sensores necesarios para el desarrollo de la IA física, creando conjuntos de datos personalizados para satisfacer las necesidades de los modelos. Con NVIDIA Cosmos Dataset Search (CDS), los desarrolladores pueden consultar estos conjuntos de datos al instante y recuperar escenarios para el entrenamiento posterior específico.

Acelere el procesamiento y la generación eficientes de conjuntos de datos.

Casos de uso

Cómo Cosmos acelera la IA en todos los sectores

Utilice los WFM de Cosmos para simular, razonar y generar datos para procesos posteriores en robótica, vehículos autónomos y sistemas de visión industrial.

Aprendizaje de robots

Los robots necesitan vastos y diversos datos de entrenamiento para percibir e interactuar de forma eficaz con sus entornos. Con los WFM de Cosmos, los desarrolladores pueden generar datos sintéticos controlables y de alta fidelidad para entrenar modelos de percepción y políticas de robots.

Entrenamiento de vehículos autónomos

Los diversos datos de sensores de alta fidelidad son críticos para entrenar, probar y validar de forma segura vehículos autónomos. Con los modelos fundamentales de Cosmos entrenados posteriormente en datos de vehículos, los desarrolladores pueden amplificar la diversidad de datos existente con nuevas ubicaciones de clima, iluminación y geolocalizaciones, o ampliarla a vistas multisensor, ahorrando significativamente tiempo y costes.

Agentes de IA para análisis de vídeo

Estos agentes de IA pueden analizar, resumir e interactuar con flujos de vídeo en tiempo real o grabados para mejorar la automatización, la seguridad y la eficiencia operativa en todos los entornos industriales y urbanos. Cosmos Reason permite a los agentes de IA de análisis de vídeo ofrecer respuestas a preguntas en tiempo real, alertas rápidas e información contextual enriquecida, impulsando sistemas más inteligentes y con mayor capacidad de respuesta en las implementaciones perimetrales y en la nube.

IA de confianza

Apoyo a la comunidad de IA física

Los modelos, guías de protección y tokenizadores de Cosmos están disponibles en Hugging Face y GitHub, con recursos para abordar la escasez de datos en el entrenamiento de modelos de IA física.

Infraestructura de IA

Obtenga el mejor rendimiento con NVIDIA Blackwell

Los servidores de la serie NVIDIA RTX PRO 6000 Blackwell aceleran el desarrollo de la IA física para robots, vehículos autónomos y agentes de IA en el entrenamiento, la generación de datos sintéticos, la simulación y la inferencia.

Libere el rendimiento máximo para los modelos fundamentales de Cosmos en NVIDIA Blackwell GB200 para cargas de trabajo industriales posteriores al entrenamiento e inferencia.

Ecosistema

Adoptado por los principales innovadores en el campo de la IA física

Los desarrolladores de modelos de los sectores de la robótica, los vehículos autónomos y la visión artificial utilizan Cosmos para acelerar el desarrollo de la IA física.

Próximos pasos

¿Listo para empezar?

Pruebe un modelo fundacional mundial en el catálogo de API de NVIDIA o empiece a crear sus propios modelos fundacionales mundiales utilizando Cosmos.

Libro de cocina de Cosmos

Una guía integral para trabajar con el ecosistema de NVIDIA Cosmos para aplicaciones específicas de dominio del mundo real en robótica, simulación, sistemas autónomos y comprensión de escenas físicas.

Cree agentes de IA para análisis de vídeo

Utilice Cosmos Reason con el plano de NVIDIA para la búsqueda y resumen de vídeos (VSS) para crear agentes de IA para una comprensión de vídeo escalable en tiempo real.

Recursos

Lo último de los desarrolladores de Cosmos

Preguntas frecuentes

Empiece con la documentación. Los WFM de Cosmos están disponibles de forma abierta en Hugging Face con scripts de inferencia y posentrenamiento en GitHub.

Los WFM de Cosmos están disponibles con una licencia de modelo abierto de NVIDIA para todos.

Los scripts de PyTorch están disponibles de forma abierta para todos los modelos de Cosmos para el entrenamiento posterior. Consulte el nuevo libro de cocina de Cosmos, que contiene recetas paso a paso y scripts de posentrenamiento para crear, personalizar e implementar rápidamente los modelos fundamentales mundiales de Cosmos de NVIDIA para la robótica y los sistemas autónomos.

Sí, puede aprovechar Cosmos para crear desde cero con su modelo o arquitectura de modelos preferidos. Puede empezar utilizando NeMo Curator para el preprocesamiento de datos de vídeo. Luego comprima y descodifique sus datos con el tokenizador Cosmos. Una vez que haya procesado los datos, puede entrenar o ajustar su modelo utilizando NVIDIA NeMo.

Utilizando los microservicios NVIDIA NIM™, puede integrar fácilmente sus modelos de IA física en sus aplicaciones en la nube, los centros de datos y las estaciones de trabajo.

También puede utilizar NVIDIA DGX Cloud para entrenar modelos de IA e implementarlos en cualquier lugar a escala.

Los tres son unos WFM con roles distintos:

  • Cosmos Predict genera diversas escenas de vídeo a partir de indicaciones de texto, imagen o vídeo, ideales para el entrenamiento posterior en temas como robots o coches autónomos.
  • Cosmos Transfer aplica la transferencia de estilo multi-control, que cambia la iluminación y los entornos, en vídeos basados en la física, a menudo creados en simuladores como NVIDIA Omniverse.
  • Cosmos Reason responde a las consultas de texto al razonar sobre las entradas de vídeo e imagen.

Cosmos Reason puede generar nuevas y diversas indicaciones de texto a partir de un vídeo de partida para Cosmos Predict, o criticar y anotar los datos sintéticos de Predict y Transfer.

Omniverse crea simulaciones 3D realistas de tareas del mundo real utilizando diferentes API generativas, SDK y la tecnología de renderizado NVIDIA RTX.

Los desarrolladores pueden introducir simulaciones de Omniverse como vídeos instructivos en modelos de Cosmos Transfer para generar datos sintéticos fotorrealistas controlables.

Juntos, Omniverse proporciona el entorno de simulación antes y después del entrenamiento, mientras que Cosmos proporciona los modelos fundacionales para generar datos de vídeo y entrenar modelos de IA física.

Más información sobre NVIDIA Omniverse.