L'IA physique

NVIDIA Cosmos

Développez des modèles de fondation de monde pour faire progresser l'IA physique.

Aperçu

Qu'est-ce que NVIDIA Cosmos ?

NVIDIA Cosmos™ est une plateforme qui comprend des modèles de fondation de monde génératifs (WFM) de pointe, des générateurs de jetons avancés, des barrières de sécurité et un pipeline accéléré de traitement et d'organisation de données. Elle est conçue pour faciliter l'entraînement des modèles de monde et accélérer le développement de l'IA physique pour les véhicules autonomes et les robots.

NVIDIA popularise l'accès à la robotique avec de nouveaux modèles Cosmos d’IA physique

Découvrez comment les nouvelles versions des modèles NVIDIA Cosmos, telles que Cosmos Transfer et Cosmos Reason, facilitent la génération et la compréhension du monde pour les véhicules autonomes, les robots et les agents d’IA d’analyse vidéo.

Les pionniers de l'industrie conçoivent des agents plus intelligents grâce à NVIDIA Nemotron et de nouveaux modèles Cosmos pour le raisonnement

Les modèles de raisonnement ouverts fournissent des capacités de réflexion plus rapides et évoluées pour générer des résultats plus intelligents par le biais des agents d'IA dans le service à la clientèle, la production industrielle, la logistique et la robotique.

Avantages

Accélérez la génération de mondes virtuels pour l'IA physique

Cosmos fournit aux développeurs un accès facile à des modèles de fondation de monde, des pipelines de données et des outils hautes performances pour générer des données synthétiques et post-entraîner pour les applications de robotique et de conduite autonome.

Données basées sur la physique

Des modèles multimodaux pré-entraînés sur 20 millions d'heures de données de robotique et de conduite pour générer des états du monde basés sur la physique.

Ouvrir

Les WFM, les barrières de sécurité et les générateurs de jetons Cosmos sont autorisés sous licence pour modèles ouverts de NVIDIA, ce qui permet à tous les développeurs d'IA physique d'y accéder.

Améliorer en permanence les systèmes autonomes

Développez facilement un volant de données pour organiser, augmenter, évaluer et simuler des données grâce à des modèles et à des outils conçus pour le développement de modèles de fondation d'IA physique personnalisés.

Évoluez rapidement

Déployez rapidement les modèles de fondation de monde Cosmos à l'aide des microservices NIM et élargissez les workflows d'IA agentique et de génération de données synthétiques.

Modèles ouverts

Modèles Cosmos pour l'IA physique

Découvrez des modèles génératifs multimodaux pré-entraînés que les développeurs peuvent utiliser prêts à l'emploi pour la génération ou le raisonnement du monde, ou post-entraînez vos modèles pour développer de nouveaux modèles spécialisés d'IA physique.

Cosmos Predict

Modèle de prédiction d'états du monde aux performances de pointe qui peut générer jusqu'à 30 secondes de vidéo en continu à partir d'entrées multimodales avec une vitesse, une fidélité et une conformité aux requêtes incomparables.

Cosmos Transfer

Modèle à contrôle multiple pour faire évoluer rapidement une seule simulation ou vidéo spatiale dans divers environnements et avec différentes conditions d'éclairage.

Accélérez les entrées 3D à partir de frameworks pour la simulation de l'IA physique, comme CARLA ou NVIDIA Isaac Sim™, pour permettre de déployer des pipelines d'augmentation des données et de génération de données synthétiques entièrement contrôlables.

Cosmos Reason

Modèle de langage de vision (VLM) pour le raisonnement entièrement personnalisable qui excelle dans la compréhension du monde physique en utilisant un raisonnement structuré sur des vidéos et des images.

Conçu pour alimenter les agents d'IA d'analyse vidéo lors de l'exécution initiale avec une compréhension spatiotemporelle avancée des opérations urbaines et industrielles, des capacités d'organisation des données d'entraînement pour la robotique et les véhicules autonomes (AV) ainsi qu'une prise de décisions optimisée pour les robots.

Conservation des données

NVIDIA Cosmos Curator est un framework permettant aux développeurs de filtrer, d’annoter et de dédupliquer rapidement les grands volumes de données de capteurs nécessaires au développement de l’IA physique, créant ainsi des jeux de données personnalisés pour répondre aux besoins des modèles.

Accélérez le traitement et la génération des jeux de données avec le plus haut degré d'efficacité.

Outils

Post-entraînement des modèles de fondation de monde Cosmos

Cosmos fournit aux développeurs des pipelines d'organisation de données, des générateurs de jeton, un framework d'entraînement et des scripts de post-entraînement ouverts et performants qui leur permettent de développer rapidement et facilement des modèles de monde spécialisés, tels que des modèles de politiques et des modèles VLA (Visual Language Action) pour l'IA incarnée.

Tokenisez efficacement les données vidéo

Utilisez les générateurs de jetons Cosmos pour générer des jetons d'image ou vidéo à des taux de compression plus élevés, afin de développer de manière évolutive, robuste et efficace de grands modèles de monde. Choisissez des variantes haute ou basse résolution pour le post-entrainement des WFM Cosmos pour en faire des modèles d'IA spécialisés.

Accélérez l'organisation des données

Multipliez par 20 la vitesse de tri des données avec le pipeline NVIDIA NeMo™ Curator de CUDA-X™ et les outils accélérés par l'IA de NVIDIA pour traiter plus de 100 Po de données. Ils fournissent des optimisations prêtes à l'emploi qui minimisent le coût total de possession et accélèrent le délai de mise sur le marché.

Script de post-entraînement

Personnalisez les WFM de Cosmos pour les cas d'utilisation d'IA physique en aval à l'aide de scripts PyTorch. Post-entraînez des modèles pour générer des actions ou du texte, ou modifiez la longueur, la précision, la vue et les contrôles de la caméra pour correspondre aux scénarios et aux exigences du monde réel.

Matériel

Profitez de performances optimales avec NVIDIA AI

Les modèles de fondation de monde Cosmos sont entièrement optimisés pour les GPU NVIDIA haut de gamme, notamment ceux basés sur la nouvelle architecture Blackwell.

Exécution sur NVIDIA Blackwell

Pour les entreprises qui utilisent d'énormes modèles multimodaux personnalisés, tels que les modèles de fondation de monde Cosmos, le GPU GB200 de NVIDIA offre une vitesse et une évolutivité inégalées pour les charges de travail comportant plus d'un milliard de paramètres. Accessibles depuis NVIDIA DGX Cloud, ils permettent de développer des superclusters d'IA nouvelle génération et des applications d'IA physique à grande échelle.

Les développeurs d'IA physique peuvent utiliser des plateformes de serveur et de station de travail avec des GPU NVIDIA RTX PRO 6000 Blackwell et DGX Cloud pour accélérer la génération de données synthétiques à l'aide d'Omniverse et de Cosmos. Cette combinaison vous permet de générer rapidement des données synthétiques basées sur la physique, utiles pour les workflows avancés en robotique, véhicules autonomes et simulation.


Cas d'utilisation

Comment Cosmos accélère l’IA dans tous les secteurs

Utilisez les modèles Cosmos de fondation du monde pour simuler, raisonner et générer des données pour les pipelines en aval dans les secteurs de la robotique, des véhicules autonomes et des systèmes de vision industriels.

Robot Learning

Les robots ont besoin de données d'entraînement à la fois vastes et diversifiées pour percevoir et interagir efficacement avec leur environnement. Grâce aux modèles Cosmos de fondation du monde, les développeurs peuvent générer des données synthétiques contrôlables à haute fidélité pour entraîner des modèles de perception et des politiques de robotique.

Entraînement des véhicules autonomes

Des données de capteurs diversifiées à haute fidélité sont essentielles pour entraîner, tester et valider en toute sécurité les véhicules autonomes. Avec les modèles Cosmos de fondation du monde post-entraînés sur les données des véhicules, les développeurs peuvent amplifier la diversité des données existantes avec des conditions météorologiques, des géolocalisations et des éclairages inédits, voire les étendre à des vues multi-capteurs, économisant ainsi beaucoup de temps et d'argent.

Agents d'IA d'analyse vidéo

Ces agents d’IA peuvent analyser, résumer et interagir avec des flux vidéo en temps réel ou enregistrés pour améliorer l’automatisation, la sécurité et l’efficacité opérationnelle dans des environnements industriels et urbains.

Cosmos Reason est un modèle de langage de vision (VLM) personnalisable qui alimente les agents d'IA d'analyse vidéo avec une compréhension visuelle avancée et des capacités de raisonnement spatiotemporel pour le monde physique. Ces agents d’IA fournissent des réponses à des questions en temps réel, des alertes rapides et des informations contextuelles riches, permettant ainsi à des systèmes plus intelligents et plus réactifs de fonctionner en toute transparence pour des déploiements à l'Edge ou dans le Cloud.

IA de confiance

Soutenir la communauté de l’IA physique

Les modèles Cosmos, les barrières et les générateurs de jetons sont disponibles sur Hugging Face et GitHub, avec des ressources dédiées pour lutter contre la rareté des données en matière d'entraînement des modèles d'IA physique.

Infrastructure d’IA

Obtenez les meilleures performances du marché avec NVIDIA Blackwell

Les serveurs NVIDIA RTX PRO 6000 de la série Blackwell accélèrent le développement de l’IA physique pour les robots, les véhicules autonomes et les agents d’IA à des fins d'entraînement des modèles, de génération de données synthétiques, de simulation et d'inférence.

Obtenez le plus haut niveau de performance avec les modèles Cosmos de fondation du monde sur NVIDIA Blackwell GB200 pour les charges de travail industrielles de post-entraînement et d’inférence.

Écosystème

Adopté par les principaux innovateurs en IA physique

Les développeurs de modèles dans les secteurs de la robotique, des véhicules autonomes et de la vision par l'IA utilisent Cosmos pour accélérer le développement de l'IA physique.

Prochaines étapes

Prêt à vous lancer ?

Testez un modèle de fondation de monde dans le catalogue d'API NVIDIA ou commencez à développer vos propres modèles de fondation de monde avec Cosmos.

Post-entraînement de WFM

Les WFM de Cosmos sont spécialement conçus pour le post-entraînement. De quoi donner naissance à de puissants modèles de monde en aval qui accélèrent le développement de l'IA physique.

Organiser des données vidéo pour les modèles de monde

Exploitez un pipeline de traitement et d'organisation des données accéléré par NVIDIA NeMo Curator et optimisé pour les GPU NVIDIA pour les Data Centers.

Ressources

Ressources récentes pour les développeurs Cosmos

Foire aux questions

Commencez par consulter la documentation. Les modèles de fondation de monde Cosmos sont disponibles sur Hugging Face, tandis que les scripts d'inférence et de post-entraînement sont sur GitHub. Les développeurs peuvent également utiliser le générateur de jetons Cosmos à partir de /NVIDIA/cosmos-tokenizer sur GitHub et Hugging Face.

Les modèles de fondation de monde Cosmos sont disponibles sous licence de modèles ouverts NVIDIA pour tous.

Les scripts PyTorch sont ouvertement disponibles pour tous les modèles Cosmos pour le post-entraînement. Veuillez lire la documentation pour obtenir un guide étape par étape sur le post-entraînement.

Oui, vous pouvez exploiter Cosmos pour développer à partir de zéro avec votre modèle de base ou votre architecture de modèle préféré. Vous pouvez commencer par utiliser NeMo Curator pour le prétraitement des données vidéo. Ensuite, compressez et décodez vos données avec le générateur de jetons Cosmos. Une fois les données traitées, vous pouvez entraîner ou affiner votre modèle à l'aide de NVIDIA NeMo.

Grâce aux microservices NVIDIA NIM™, vous pouvez facilement intégrer vos modèles d'IA physique à vos applications dans le Cloud, les Data Centers et les stations de travail.

Vous pouvez également utiliser NVIDIA DGX Cloud pour entraîner des modèles d'IA et les déployer n'importe où à grande échelle.

Ces trois modèles de fondation du monde possèdent des rôles distincts :

  • Cosmos Predict génère diverses scènes vidéo à partir de textes, d'images ou d'invites vidéo, l'idéal pour le réglage précis d'entités telles que les robots ou les voitures autonomes.
  • Cosmos Transfer applique un transfert de style à contrôle multiple pour modifier l’éclairage et les environnements dans des vidéos basées sur la physique, le plus souvent créées dans des simulateurs comme NVIDIA Omniverse.
  • Cosmos Reason répond à des requêtes textuelles en raisonnant à partir d'entrées prenant la forme de vidéos ou d'images.

Cosmos Reason peut générer des invites textuelles inédites et variées à partir d'une vidéo de départ pour Cosmos Predict, ou critiquer et annoter des données synthétiques à partir de Predict et Transfer.

Omniverse crée des simulations 3D réalistes de tâches réelles à l'aide de différentes API génératives, de kits de développement logiciel et de la technologie de rendu NVIDIA RTX.

Les développeurs peuvent entrer des simulations Omniverse sous forme de vidéos d'instructions dans les modèles Cosmos Transfer pour générer des données synthétiques photoréalistes contrôlables.

Omniverse fournit l'environnement de simulation avant et après l'entraînement, tandis que Cosmos fournit les modèles de base pour générer des données vidéo et entrainer des modèles d'IA physique.

En savoir plus sur NVIDIA Omniverse.