L'IA physique
Développez des modèles de fondation de monde pour faire progresser l'IA physique.
Aperçu
NVIDIA Cosmos™ est une plateforme qui comprend des modèles de fondation de monde génératifs (WFM) de pointe, des générateurs de jetons avancés, des barrières de sécurité et un pipeline accéléré de traitement et d'organisation de données. Elle est conçue pour faciliter l'entraînement des modèles de monde et accélérer le développement de l'IA physique pour les véhicules autonomes et les robots.
Modèles ouverts
Découvrez des modèles génératifs multimodaux pré-entraînés que les développeurs peuvent utiliser prêts à l'emploi pour la génération ou le raisonnement du monde, ou post-entraînez vos modèles pour développer de nouveaux modèles spécialisés d'IA physique.
Modèle de prédiction d'états du monde aux performances de pointe qui peut générer jusqu'à 30 secondes de vidéo en continu à partir d'entrées multimodales avec une vitesse, une fidélité et une conformité aux requêtes incomparables.
Modèle à contrôle multiple pour faire évoluer rapidement une seule simulation ou vidéo spatiale dans divers environnements et avec différentes conditions d'éclairage.
Accélérez les entrées 3D à partir de frameworks pour la simulation de l'IA physique, comme CARLA ou NVIDIA Isaac Sim™, pour permettre de déployer des pipelines d'augmentation des données et de génération de données synthétiques entièrement contrôlables.
Modèle de langage de vision (VLM) pour le raisonnement entièrement personnalisable qui excelle dans la compréhension du monde physique en utilisant un raisonnement structuré sur des vidéos et des images.
Conçu pour alimenter les agents d'IA d'analyse vidéo lors de l'exécution initiale avec une compréhension spatiotemporelle avancée des opérations urbaines et industrielles, des capacités d'organisation des données d'entraînement pour la robotique et les véhicules autonomes (AV) ainsi qu'une prise de décisions optimisée pour les robots.
NVIDIA Cosmos Curator est un framework permettant aux développeurs de filtrer, d’annoter et de dédupliquer rapidement les grands volumes de données de capteurs nécessaires au développement de l’IA physique, créant ainsi des jeux de données personnalisés pour répondre aux besoins des modèles.
Accélérez le traitement et la génération des jeux de données avec le plus haut degré d'efficacité.
Cas d'utilisation
Utilisez les modèles Cosmos de fondation du monde pour simuler, raisonner et générer des données pour les pipelines en aval dans les secteurs de la robotique, des véhicules autonomes et des systèmes de vision industriels.
Les robots ont besoin de données d'entraînement à la fois vastes et diversifiées pour percevoir et interagir efficacement avec leur environnement. Grâce aux modèles Cosmos de fondation du monde, les développeurs peuvent générer des données synthétiques contrôlables à haute fidélité pour entraîner des modèles de perception et des politiques de robotique.
Des données de capteurs diversifiées à haute fidélité sont essentielles pour entraîner, tester et valider en toute sécurité les véhicules autonomes. Avec les modèles Cosmos de fondation du monde post-entraînés sur les données des véhicules, les développeurs peuvent amplifier la diversité des données existantes avec des conditions météorologiques, des géolocalisations et des éclairages inédits, voire les étendre à des vues multi-capteurs, économisant ainsi beaucoup de temps et d'argent.
Ces agents d’IA peuvent analyser, résumer et interagir avec des flux vidéo en temps réel ou enregistrés pour améliorer l’automatisation, la sécurité et l’efficacité opérationnelle dans des environnements industriels et urbains.
Cosmos Reason est un modèle de langage de vision (VLM) personnalisable qui alimente les agents d'IA d'analyse vidéo avec une compréhension visuelle avancée et des capacités de raisonnement spatiotemporel pour le monde physique. Ces agents d’IA fournissent des réponses à des questions en temps réel, des alertes rapides et des informations contextuelles riches, permettant ainsi à des systèmes plus intelligents et plus réactifs de fonctionner en toute transparence pour des déploiements à l'Edge ou dans le Cloud.
IA de confiance
Les modèles Cosmos, les barrières et les générateurs de jetons sont disponibles sur Hugging Face et GitHub, avec des ressources dédiées pour lutter contre la rareté des données en matière d'entraînement des modèles d'IA physique.
Infrastructure d’IA
Les serveurs NVIDIA RTX PRO 6000 de la série Blackwell accélèrent le développement de l’IA physique pour les robots, les véhicules autonomes et les agents d’IA à des fins d'entraînement des modèles, de génération de données synthétiques, de simulation et d'inférence.
Obtenez le plus haut niveau de performance avec les modèles Cosmos de fondation du monde sur NVIDIA Blackwell GB200 pour les charges de travail industrielles de post-entraînement et d’inférence.
Écosystème
Les développeurs de modèles dans les secteurs de la robotique, des véhicules autonomes et de la vision par l'IA utilisent Cosmos pour accélérer le développement de l'IA physique.
Ressources
Commencez par consulter la documentation. Les modèles de fondation de monde Cosmos sont disponibles sur Hugging Face, tandis que les scripts d'inférence et de post-entraînement sont sur GitHub. Les développeurs peuvent également utiliser le générateur de jetons Cosmos à partir de /NVIDIA/cosmos-tokenizer sur GitHub et Hugging Face.
Les modèles de fondation de monde Cosmos sont disponibles sous licence de modèles ouverts NVIDIA pour tous.
Les scripts PyTorch sont ouvertement disponibles pour tous les modèles Cosmos pour le post-entraînement. Veuillez lire la documentation pour obtenir un guide étape par étape sur le post-entraînement.
Oui, vous pouvez exploiter Cosmos pour développer à partir de zéro avec votre modèle de base ou votre architecture de modèle préféré. Vous pouvez commencer par utiliser NeMo Curator pour le prétraitement des données vidéo. Ensuite, compressez et décodez vos données avec le générateur de jetons Cosmos. Une fois les données traitées, vous pouvez entraîner ou affiner votre modèle à l'aide de NVIDIA NeMo.
Grâce aux microservices NVIDIA NIM™, vous pouvez facilement intégrer vos modèles d'IA physique à vos applications dans le Cloud, les Data Centers et les stations de travail.
Vous pouvez également utiliser NVIDIA DGX Cloud pour entraîner des modèles d'IA et les déployer n'importe où à grande échelle.
Ces trois modèles de fondation du monde possèdent des rôles distincts :
Cosmos Reason peut générer des invites textuelles inédites et variées à partir d'une vidéo de départ pour Cosmos Predict, ou critiquer et annoter des données synthétiques à partir de Predict et Transfer.
Omniverse crée des simulations 3D réalistes de tâches réelles à l'aide de différentes API génératives, de kits de développement logiciel et de la technologie de rendu NVIDIA RTX.
Les développeurs peuvent entrer des simulations Omniverse sous forme de vidéos d'instructions dans les modèles Cosmos Transfer pour générer des données synthétiques photoréalistes contrôlables.
Omniverse fournit l'environnement de simulation avant et après l'entraînement, tandis que Cosmos fournit les modèles de base pour générer des données vidéo et entrainer des modèles d'IA physique.
En savoir plus sur NVIDIA Omniverse.