IA physique

NVIDIA Cosmos

Développez des modèles de fondation de monde pour faire progresser l'IA physique.

Aperçu

Qu'est-ce que NVIDIA Cosmos ?

NVIDIA Cosmos est une plateforme spécialement conçue pour l'IA physique, qui propose des modèles de fondation de monde génératif (WFM) de pointe, des garde-fous et un pipeline de traitement et de curation des données accéléré. Les développeurs utilisent Cosmos pour accélérer le développement de l'IA physique des véhicules autonomes (AV), des robots et des agents d'IA d'analyse vidéo.

Personnalisation de NVIDIA Cosmos pour n'importe quel cas d'utilisation d'IA physique

Le Cosmos Cookbook fournit un guide complet pour les développeurs d'IA physique pour apprendre, utiliser et post-entraîner les modèles NVIDIA basés sur Cosmos, notamment de nouvelles applications telles que LidarGen, Cosmos Policy et bien plus encore.

Comment faire évoluer la génération de données pour l'IA physique avec le NVIDIA Cosmos cookbook

Dans cet article, nous allons tester les recettes de Cosmos Transfer pour modifier des arrière-plans vidéo, ajouter de nouvelles conditions environnementales à des données de conduite, générer des données pour la navigation robotique et générer des données synthétiques pour des scénarios de trafic urbain.

Modèles ouverts

Modèles Cosmos pour l'IA physique

Modèles génératifs multimodaux pré-entraînés que les développeurs peuvent utiliser prêts à l'emploi pour la génération de monde ou le raisonnement, ou post-entraîner pour développer des modèles d'IA physique.

Cosmos Predict

Modèle de prédiction de l'état du monde de pointe capable de générer jusqu'à 30 secondes de vidéo continue à partir d'entrées multimodales avec une vitesse, une fidélité et une adhérence supérieures. Débloquez des capacités de prévision et de planification de scénarios avancées pour les agents robotique et d'IA en prédisant les états futurs des environnements dynamiques.

Cosmos Transfer

Le modèle multicontrôle met à l'échelle une seule simulation ou vidéo spatiale dans divers environnements et conditions d'éclairage. Accélérer les entrées 3D à partir de frameworks de simulation d'IA physique, tels que CARLA ou NVIDIA Isaac Sim™, pour permettre des pipelines d'augmentation des données et de génération de données synthétiques entièrement contrôlables.

Cosmos Reason

Le modèle de langage de vision (VLM) ouvert, personnalisable et de raisonnement pour l'IA physique permet aux robots et aux agents d'IA de vision de raisonner comme les humains. Elle peut utiliser des connaissances antérieures, la compréhension de la physique et le bon sens pour comprendre le monde réel et comment interagir avec lui.

Traitement des données

NVIDIA Cosmos Curator est un framework permettant aux développeurs de filtrer, d'annoter et de dédupliquer rapidement de grandes quantités de données de capteurs nécessaires au développement de l'IA physique, en créant des jeux de données personnalisés pour répondre aux besoins des modèles. Avec NVIDIA Cosmos Datasets Search (CDS), les développeurs peuvent interroger instantanément ces jeux de données et récupérer des scénarios pour un post-entraînement ciblé.

Accélérez le traitement et la génération efficaces des jeux de données.

Cas d'utilisation

Comment Cosmos accélère l'IA dans les industries

Utilisez les WFM de Cosmos pour simuler, raisonner et générer des données pour des pipelines en aval en robotique, en véhicules autonomes et en systèmes de vision industrielle.

Robot Learning

Les robots ont besoin de données d'entraînement vastes et diversifiées pour percevoir et interagir efficacement avec leur environnement. Avec les WFM de Cosmos, les développeurs peuvent générer des données synthétiques contrôlables et haute fidélité pour entraîner la perception des robots et des modèles de politiques.

Entraînement des véhicules autonomes

Les données de capteurs diversifiées et haute fidélité sont essentielles pour entraîner, tester et valider en toute sécurité les véhicules autonomes. Grâce aux WFM de Cosmos post-entraînés sur des données de véhicules, les développeurs peuvent amplifier la diversité des données existante avec de nouvelles conditions météorologiques, un éclairage et des géolocalisations, ou étendre leur offre aux vues multi-capteurs, ce qui permet un gain de temps et d'argent considérable.

Agents d'IA pour l'analyse vidéo

Ces agents d'IA peuvent analyser, résumer et interagir avec des flux vidéo en temps réel ou enregistrés pour améliorer l'automatisation, la sécurité et l'efficacité opérationnelle dans les environnements industriels et urbains. Cosmos Reason alimente les agents d'IA d'analyse vidéo pour fournir des réponses aux questions en temps réel, des alertes rapides et des informations contextuelles riches, alimentant des systèmes plus intelligents et plus réactifs dans les déploiements à l'Edge et dans le Cloud.

Trustworthy AI

Aider la communauté de l'IA physique

Les modèles, les barrières de sécurité et les générateurs de jetons Cosmos sont disponibles sur Hugging Face et GitHub et sont accompagnés de ressources pour aider à gérer la rareté des données lors de l'entraînement des modèles d'IA physique. .

Infrastructure d’IA

Obtenez les meilleures performances avec NVIDIA Blackwell

Les serveurs NVIDIA RTX PRO 6000 de la série Blackwell accélèrent le développement de l'IA physique des robots, des véhicules autonomes et des agents d'IA dans l'entraînement, la génération de données synthétiques, la simulation et l'inférence.

Débloquez des performances maximales des modèles de fondation de monde Cosmos sur NVIDIA Blackwell GB200 pour les charges de travail de post-entraînement et d'inférence industriels.

Écosystème

Adopté par les principaux innovateurs en IA physique

Les développeurs de modèles dans les secteurs de la robotique, des véhicules autonomes et de la vision par l'IA utilisent Cosmos pour accélérer le développement de l'IA physique.

Étapes suivantes

Vous voulez vous lancer ?

Testez un modèle de fondation de monde dans le catalogue d'API de NVIDIA ou commencez à développer vos propres modèles de monde à l'aide de Cosmos.

Cosmos Cookbook

Guide complet pour travailler avec l'écosystème NVIDIA Cosmos pour des applications concrètes et spécifiques à un domaine en robotique, en simulation, en systèmes autonomes et en compréhension des scènes physiques.

Créer des agents d'IA pour l'analyse vidéo

Utilisez Cosmos Reason avec NVIDIA Blueprint pour la recherche et la synthèse vidéo (VSS) afin de développer des agents d'IA pour une compréhension vidéo évolutive en temps réel.

Ressources

Dernières nouveautés des développeurs de Cosmos

Foire aux questions

Commencez par consulter la documentation. Les WFM de Cosmos sont ouvertement disponibles sur Hugging Face avec des scripts d'inférence et de post-entraînement sur GitHub.

Les WFM de Cosmos sont disponibles dans le cadre d'une licence de modèle ouvert de NVIDIA pour tous.

Les scripts PyTorch sont ouvertement disponibles pour tous les modèles Cosmos pour le post-entraînement. Référez-vous au nouveau Cosmos Cookbook qui contient des recettes étape par étape et des scripts de post-entraînement pour développer, personnaliser et déployer rapidement les modèles de fondation de monde Cosmos de NVIDIA pour la robotique et les systèmes autonomes.

Oui, vous pouvez exploiter Cosmos pour développer à partir de zéro avec votre modèle de fondation ou votre architecture de modèle préféré. Vous pouvez commencer par utiliser NeMo Curator pour le prétraitement des données vidéo. Ensuite, compressez et décodez vos données avec le générateur de jetons Cosmos. Une fois les données traitées, vous pouvez entraîner ou affiner votre modèle à l'aide de NVIDIA NeMo.

Grâce aux microservices NVIDIA NIM™, vous pouvez facilement intégrer vos modèles d'IA physique à vos applications dans le Cloud, les Data Centers et les stations de travail.

Vous pouvez également utiliser NVIDIA DGX Cloud pour entraîner des modèles d'IA et les déployer n'importe où à grande échelle.

Les trois sont des WFM avec des rôles distincts :

  • Cosmos Predict génère diverses scènes vidéo à partir de texte, d'images ou de prompts vidéo, ce qui est idéal pour le post-entraînement sur des sujets tels que les robots ou les véhicules autonomes.
  • Cosmos Transfer applique un transfert de style multi-contrôle (changement d'éclairage et d'environnement) sur les vidéos basées sur la physique, celles-ci étant souvent créées avec des simulateurs tels que NVIDIA Omniverse.
  • Cosmos Reason répond aux requêtes textuelles en raisonnant sur des entrées vidéo et d'images.

Cosmos Reason peut générer de nouvelles invites textuelles diversifiées à partir d'une vidéo de départ pour Cosmos Predict, ou critiquer et annoter des données synthétiques à partir de Predict et de Transfer.

Omniverse crée des simulations 3D réalistes de tâches réelles à l'aide de différentes API génératives, de kits de développement logiciel et de la technologie de rendu NVIDIA RTX.

Les développeurs peuvent entrer des simulations Omniverse sous forme de vidéos d'instructions dans les modèles Cosmos Transfer pour générer des données synthétiques photoréalistes contrôlables.

Omniverse fournit l'environnement de simulation avant et après l'entraînement, tandis que Cosmos fournit les modèles de base pour générer des données vidéo et entrainer des modèles d'IA physique.

En savoir plus sur NVIDIA Omniverse.