L'IA physique
Développez des modèles de fondation de monde pour faire progresser l'IA physique.
Aperçu
NVIDIA Cosmos™ est une plateforme qui comprend des modèles de fondation de monde génératifs (WFM) de pointe, des générateurs de jetons avancés, des barrières de sécurité et un pipeline accéléré de traitement et d'organisation de données. Elle est conçue pour faciliter l'entraînement des modèles de monde et accélérer le développement de l'IA physique pour les véhicules autonomes et les robots.
Cosmos permet aux développeurs d'accéder facilement à des modèles de fondation de mondes hautes performances, à des pipelines de données et à des outils leur permettant de post-entraîner ces modèles pour la robotique et les tâches de conduite autonome.
Les modèles de fondation de monde sont pré-entraînés sur 20 millions d'heures de robotique et de données de base permettant de générer des états du monde basés sur la physique.
Les WFM, les barrières de sécurité et les générateurs de jetons Cosmos sont autorisés sous licence pour modèles ouverts de NVIDIA, ce qui permet à tous les développeurs d'IA physique d'y accéder.
Modèles
Une famille de modèles multimodaux pré-entraînés que les développeurs peuvent utiliser immédiatement pour la génération et le raisonnement de mondes, ou post-entraînement pour développer des modèles d'IA physique spécialisés.
Modèle généraliste pour la génération de mondes et la prédiction de mouvements à partir d'entrées multimodales. Entraîné sur 9 000 000 de jetons provenant de données de robotique et de conduite, spécialement conçus pour le post-entraînement.
Disponible en tant que NIM Cosmos pour une inférence accélérée n'importe où.
Génération de mondes basée sur la physique conditionnée par la vérité fondamentale et les entrées 3D. Les entrées incluent des cartes de segmentation, des signaux de profondeur, des scans LiDAR, des points clés, des trajectoires, des cartes HD et une simulation basée sur la vérité fondamentale de NVIDIA Omniverse™ pour la génération de données synthétiques contrôlable.
Modèle de raisonnement multimodal entièrement personnalisable pour la planification d'une réponse basée sur la compréhension spatiale et temporelle.
Entraîné à l'aide de l'affinage des modèles de langage visuel et de l'apprentissage par renforcement pour un raisonnement par chaîne de pensées.
Développez des modèles responsables à l'aide de WFM de Cosmos avec une pré-protection pour filtrer les données non sûres et une post-protection pour obtenir des résultats cohérents et sûrs.
Cosmos fournit aux développeurs des pipelines d'organisation de données ouverts et hautes performances, des générateurs de jeton, un framework d'entraînement et des scripts de post-entraînement leur permettant de développer rapidement et facilement des modèles de monde spécialisés, tels que des modèles de politiques et des modèles VLA (Visual Language Action) pour l'IA incarnée.
Les développeurs peuvent post-entraîner les WFM de Cosmos ou les associer à NVIDIA Omniverse pour traiter les cas d'utilisation de l'IA physique en aval.
Cosmos accélère la génération de données synthétiques pour l'entraînement des modèles d'IA de perception.
Omniverse fournit des API génératives, des outils et le rendu NVIDIA RTX™ pour créer des scènes 3D basées sur la vérité du terrain physiquement précises pour les WFM de Cosmos. À l'aide de ces éléments visuels comme entrées, le modèle WFM de Cosmos Transfer génère des résultats photoréalistes, en simulant diverses conditions météorologiques, environnements et éclairages, tout en prédisant les états du monde avec une précision physique basée sur des invites de texte.
Les développeurs peuvent utiliser les WFM de Cosmos généralistes prêts à l'emploi ou les personnaliser avec leurs propres données pour une plus grande précision des SDG en aval.
Un modèle de politique guide le comportement d'un système d'IA physique afin de garantir que celui-ci fonctionne en toute sécurité et conformément à ses objectifs. Cosmos Predict ou Cosmos Reason peuvent être post-entraînés dans des modèles de politiques afin de générer des actions, ce qui permet d'économiser les coûts, le temps et les données nécessaires à l'entraînement manuel de politiques.
Les WFM de Cosmos accélèrent l'évaluation de politiques en simulant des actions réelles à l'aide de sorties vidéo, en utilisant la physique Ground-Truth d'Omniverse pour garantir la précision. Les développeurs peuvent développer un modèle VLA (Vision Language Action) à l'aide de Cosmos Reason, puis l'ajouter pour donner des avis et stimuler des actions. Cette boucle de simulation réduit les coûts, les délais et les risques liés aux tests en conditions réelles, tout en améliorant la précision des politiques.
Les WFM de Cosmos peuvent être post-entraînés pour agir comme un moteur ou un système multivers, en explorant des stratégies de tâches multiples, en récompensant les résultats les plus efficaces et en améliorant la prise de décision pour le contrôle prédictif et l'apprentissage par renforcement. Les développeurs peuvent ajouter un module de récompense aux WFM de Cosmos et simuler des résultats dans Omniverse.
Prochainement
Les modèles, les barrières de sécurité et les générateurs de jetons Cosmos sont disponibles sur Hugging Face et GitHub, ils sont accompagnés de ressources adaptées à la rareté des données lors de l'entraînement des modèles d'IA physique. Nous nous engageons à faire progresser Cosmos d'une manière transparente, ouverte et conçue pour tous.
Les développeurs de modèles dans les secteurs de la robotique, des véhicules autonomes et de vision avec l'IA utilisent Cosmos pour accélérer le développement de l'IA physique.
Les développeurs d'IA physique peuvent commencer dès maintenant avec les modèles de fondation de monde Cosmos, disponibles sur Hugging Face et GitHub. Cosmos fournit également un pipeline de bout en bout pour affiner les modèles de fondation avec NVIDIA NeMo. Les développeurs peuvent utiliser le générateur de jetons Cosmos à partir de /NVIDIA/cosmos-tokenizer sur GitHub et Hugging Face.
Les modèles de fondation de monde Cosmos sont disponibles sous licence de modèles ouverts NVIDIA pour tous.
Oui, il existe deux approches concernant le post-entraînement des modèles Cosmos :
1) NeMo vous permet d'entraîner et d'affiner efficacement les modèles à l'aide de techniques populaires telles que l'adaptation de bas rang (LoRA) et l'apprentissage par renforcement à partir des retours humains (RLHF). Vous pouvez également choisir PyTorch pour continuer à entraîner les WFM à l'aide de vos propres ensembles de données.
2) Vous pouvez utiliser des scripts PyTorch ouverts depuis GitHub pour post-entraîner des WFM de Cosmos.
Oui, vous pouvez exploiter Cosmos pour développer à partir de zéro avec votre modèle de base ou votre architecture de modèle préféré. Vous pouvez commencer par utiliser NeMo Curator pour le prétraitement des données vidéo. Ensuite, compressez et décodez vos données avec le générateur de jetons Cosmos. Une fois les données traitées, vous pouvez entraîner ou affiner votre modèle à l'aide de NVIDIA NeMo.
À l'aide des microservices NVIDIA NIM™, vous pouvez facilement intégrer vos modèles d'IA physique dans vos applications dans le Cloud, les Data Centers et les stations de travail.
Vous pouvez également utiliser NVIDIA DGX Cloud pour entraîner des modèles d'IA et les déployer n'importe où à grande échelle.
Omniverse crée des simulations 3D réalistes de tâches réelles à l'aide de différentes API génératives, de kits de développement logiciel et de la technologie de rendu NVIDIA RTX.
Les développeurs peuvent importer des simulations Omniverse sous forme de vidéos d'instructions dans le modèle Cosmos Transfer afin de générer des données synthétiques photoréalistes contrôlables.
Omniverse fournit l'environnement de simulation avant et après l'entraînement, tandis que Cosmos fournit les modèles de base pour générer des données vidéo et l'entraînement des modèles d'IA physique.
En savoir plus sur NVIDIA Omniverse.