IA physique
Développez des modèles de fondation de monde pour faire progresser l'IA physique.
Aperçu
NVIDIA Cosmos est une plateforme spécialement conçue pour l'IA physique, qui propose des modèles de fondation de monde génératif (WFM) de pointe, des garde-fous et un pipeline de traitement et de curation des données accéléré. Les développeurs utilisent Cosmos pour accélérer le développement de l'IA physique des véhicules autonomes (AV), des robots et des agents d'IA d'analyse vidéo.
Modèles ouverts
Modèles génératifs multimodaux pré-entraînés que les développeurs peuvent utiliser prêts à l'emploi pour la génération de monde ou le raisonnement, ou post-entraîner pour développer des modèles d'IA physique.
Modèle de prédiction de l'état du monde de pointe capable de générer jusqu'à 30 secondes de vidéo continue à partir d'entrées multimodales avec une vitesse, une fidélité et une adhérence supérieures. Débloquez des capacités de prévision et de planification de scénarios avancées pour les agents robotique et d'IA en prédisant les états futurs des environnements dynamiques.
Le modèle multicontrôle met à l'échelle une seule simulation ou vidéo spatiale dans divers environnements et conditions d'éclairage. Accélérer les entrées 3D à partir de frameworks de simulation d'IA physique, tels que CARLA ou NVIDIA Isaac Sim™, pour permettre des pipelines d'augmentation des données et de génération de données synthétiques entièrement contrôlables.
Le modèle de langage de vision (VLM) ouvert, personnalisable et de raisonnement pour l'IA physique permet aux robots et aux agents d'IA de vision de raisonner comme les humains. Elle peut utiliser des connaissances antérieures, la compréhension de la physique et le bon sens pour comprendre le monde réel et comment interagir avec lui.
NVIDIA Cosmos Curator est un framework permettant aux développeurs de filtrer, d'annoter et de dédupliquer rapidement de grandes quantités de données de capteurs nécessaires au développement de l'IA physique, en créant des jeux de données personnalisés pour répondre aux besoins des modèles. Avec NVIDIA Cosmos Datasets Search (CDS), les développeurs peuvent interroger instantanément ces jeux de données et récupérer des scénarios pour un post-entraînement ciblé.
Accélérez le traitement et la génération efficaces des jeux de données.
Cas d'utilisation
Utilisez les WFM de Cosmos pour simuler, raisonner et générer des données pour des pipelines en aval en robotique, en véhicules autonomes et en systèmes de vision industrielle.
Les robots ont besoin de données d'entraînement vastes et diversifiées pour percevoir et interagir efficacement avec leur environnement. Avec les WFM de Cosmos, les développeurs peuvent générer des données synthétiques contrôlables et haute fidélité pour entraîner la perception des robots et des modèles de politiques.
Les données de capteurs diversifiées et haute fidélité sont essentielles pour entraîner, tester et valider en toute sécurité les véhicules autonomes. Grâce aux WFM de Cosmos post-entraînés sur des données de véhicules, les développeurs peuvent amplifier la diversité des données existante avec de nouvelles conditions météorologiques, un éclairage et des géolocalisations, ou étendre leur offre aux vues multi-capteurs, ce qui permet un gain de temps et d'argent considérable.
Ces agents d'IA peuvent analyser, résumer et interagir avec des flux vidéo en temps réel ou enregistrés pour améliorer l'automatisation, la sécurité et l'efficacité opérationnelle dans les environnements industriels et urbains. Cosmos Reason alimente les agents d'IA d'analyse vidéo pour fournir des réponses aux questions en temps réel, des alertes rapides et des informations contextuelles riches, alimentant des systèmes plus intelligents et plus réactifs dans les déploiements à l'Edge et dans le Cloud.
Trustworthy AI
Les modèles, les barrières de sécurité et les générateurs de jetons Cosmos sont disponibles sur Hugging Face et GitHub et sont accompagnés de ressources pour aider à gérer la rareté des données lors de l'entraînement des modèles d'IA physique. .
Infrastructure d’IA
Les serveurs NVIDIA RTX PRO 6000 de la série Blackwell accélèrent le développement de l'IA physique des robots, des véhicules autonomes et des agents d'IA dans l'entraînement, la génération de données synthétiques, la simulation et l'inférence.
Débloquez des performances maximales des modèles de fondation de monde Cosmos sur NVIDIA Blackwell GB200 pour les charges de travail de post-entraînement et d'inférence industriels.
Écosystème
Les développeurs de modèles dans les secteurs de la robotique, des véhicules autonomes et de la vision par l'IA utilisent Cosmos pour accélérer le développement de l'IA physique.
Ressources
Commencez par consulter la documentation. Les WFM de Cosmos sont ouvertement disponibles sur Hugging Face avec des scripts d'inférence et de post-entraînement sur GitHub.
Les WFM de Cosmos sont disponibles dans le cadre d'une licence de modèle ouvert de NVIDIA pour tous.
Les scripts PyTorch sont ouvertement disponibles pour tous les modèles Cosmos pour le post-entraînement. Référez-vous au nouveau Cosmos Cookbook qui contient des recettes étape par étape et des scripts de post-entraînement pour développer, personnaliser et déployer rapidement les modèles de fondation de monde Cosmos de NVIDIA pour la robotique et les systèmes autonomes.
Oui, vous pouvez exploiter Cosmos pour développer à partir de zéro avec votre modèle de fondation ou votre architecture de modèle préféré. Vous pouvez commencer par utiliser NeMo Curator pour le prétraitement des données vidéo. Ensuite, compressez et décodez vos données avec le générateur de jetons Cosmos. Une fois les données traitées, vous pouvez entraîner ou affiner votre modèle à l'aide de NVIDIA NeMo.
Grâce aux microservices NVIDIA NIM™, vous pouvez facilement intégrer vos modèles d'IA physique à vos applications dans le Cloud, les Data Centers et les stations de travail.
Vous pouvez également utiliser NVIDIA DGX Cloud pour entraîner des modèles d'IA et les déployer n'importe où à grande échelle.
Les trois sont des WFM avec des rôles distincts :
Cosmos Reason peut générer de nouvelles invites textuelles diversifiées à partir d'une vidéo de départ pour Cosmos Predict, ou critiquer et annoter des données synthétiques à partir de Predict et de Transfer.
Omniverse crée des simulations 3D réalistes de tâches réelles à l'aide de différentes API génératives, de kits de développement logiciel et de la technologie de rendu NVIDIA RTX.
Les développeurs peuvent entrer des simulations Omniverse sous forme de vidéos d'instructions dans les modèles Cosmos Transfer pour générer des données synthétiques photoréalistes contrôlables.
Omniverse fournit l'environnement de simulation avant et après l'entraînement, tandis que Cosmos fournit les modèles de base pour générer des données vidéo et entrainer des modèles d'IA physique.
En savoir plus sur NVIDIA Omniverse.