L'IA physique

NVIDIA Cosmos

Développez des modèles de fondation de monde pour faire progresser l'IA physique.

Aperçu

Qu'est-ce que NVIDIA Cosmos ?

NVIDIA Cosmos™ est une plateforme qui comprend des modèles de fondation de monde génératifs (WFM) de pointe, des générateurs de jetons avancés, des barrières de sécurité et un pipeline accéléré de traitement et d'organisation de données. Elle est conçue pour faciliter l'entraînement des modèles de monde et accélérer le développement de l'IA physique pour les véhicules autonomes et les robots.

De nouveaux modèles permettent la prédiction, la génération de mondes contrôlables et le raisonnement pour l'IA physique

Présentation du premier modèle de raisonnement au monde pour le développement de l'IA physique, offrant ainsi aux développeurs un contrôle sans précédent sur la génération mondiale.

Faites évoluer les données synthétiques et le raisonnement de l'IA physique avec NVIDIA Cosmos

Découvrez les derniers WFM NVIDIA Cosmos pour le raisonnement avancé et la génération contrôlable de données synthétiques, qui permettent la nouvelle génération d'humanoïdes et de véhicules autonomes basés sur l'IA.

Avantages

Accélérez la génération de monde pour l'IA physique

Cosmos permet aux développeurs d'accéder facilement à des modèles de fondation de mondes hautes performances, à des pipelines de données et à des outils leur permettant de post-entraîner ces modèles pour la robotique et les tâches de conduite autonome.

Première donnée physique

Les modèles de fondation de monde sont pré-entraînés sur 20 millions d'heures de robotique et de données de base permettant de générer des états du monde basés sur la physique.

Ouvrir

Les WFM, les barrières de sécurité et les générateurs de jetons Cosmos sont autorisés sous licence pour modèles ouverts de NVIDIA, ce qui permet à tous les développeurs d'IA physique d'y accéder.

Modèles

Modèles de fondation de monde de Cosmos

Une famille de modèles multimodaux pré-entraînés que les développeurs peuvent utiliser immédiatement pour la génération et le raisonnement de mondes, ou post-entraînement pour développer des modèles d'IA physique spécialisés.

Prédiction

Modèle généraliste pour la génération de mondes et la prédiction de mouvements à partir d'entrées multimodales. Entraîné sur 9 000 000 de jetons provenant de données de robotique et de conduite, spécialement conçus pour le post-entraînement.

Disponible en tant que NIM Cosmos pour une inférence accélérée n'importe où.

Transfer

Génération de mondes basée sur la physique conditionnée par la vérité fondamentale et les entrées 3D. Les entrées incluent des cartes de segmentation, des signaux de profondeur, des scans LiDAR, des points clés, des trajectoires, des cartes HD et une simulation basée sur la vérité fondamentale de NVIDIA Omniverse™ pour la génération de données synthétiques contrôlable.

Reason

Modèle de raisonnement multimodal entièrement personnalisable pour la planification d'une réponse basée sur la compréhension spatiale et temporelle. 

Entraîné à l'aide de l'affinage des modèles de langage visuel et de l'apprentissage par renforcement pour un raisonnement par chaîne de pensées.

Barrières de sécurité

Développez des modèles responsables à l'aide de WFM de Cosmos avec une pré-protection pour filtrer les données non sûres et une post-protection pour obtenir des résultats cohérents et sûrs.

Outils

Post-entraînement des modèles de fondation de monde de Cosmos

Cosmos fournit aux développeurs des pipelines d'organisation de données ouverts et hautes performances, des générateurs de jeton, un framework d'entraînement et des scripts de post-entraînement leur permettant de développer rapidement et facilement des modèles de monde spécialisés, tels que des modèles de politiques et des modèles VLA (Visual Language Action) pour l'IA incarnée.

Tokenisez efficacement les données vidéo

Utilisez les générateurs de jetons Cosmos pour générer des jetons d'image ou vidéo à des taux de compression plus élevés, afin de développer de manière évolutive et robuste de grands modèles de monde. Choisissez des variantes haute ou basse résolution pour les WFM de Cosmos après l'entraînement sur des modèles d'IA spécialisés.

Accélérez la conservation des données

Accélérez la curation des données par 20 avec le pipeline NVIDIA NeMo™ Curator de CUDA-X™ et les outils accélérés par l'IA de NVIDIA pour traiter plus de 100 Po de données. Ce dernier fournit des optimisations prêtes à l'emploi, ce qui minimise le coût total de possession (TCO) et accélère le délai de mise sur le marché.

Assistance au développement entièrement gérée

NVIDIA DGX Cloud est une plateforme d'IA hautes performances pour l'entraînement accéléré. Elle permet aux développeurs de trier des données, de post-entraîner et de déployer des modèles vidéo et de fondation de monde grâce à un service entièrement géré.

Cas d'utilisation

Comment les développeurs utilisent-ils NVIDIA Cosmos ?

Les développeurs peuvent post-entraîner les WFM de Cosmos ou les associer à NVIDIA Omniverse pour traiter les cas d'utilisation de l'IA physique en aval.

Génération de données synthétiques (SDG)

Cosmos accélère la génération de données synthétiques pour l'entraînement des modèles d'IA de perception.

Omniverse fournit des API génératives, des outils et le rendu NVIDIA RTX™ pour créer des scènes 3D basées sur la vérité du terrain physiquement précises pour les WFM de Cosmos. À l'aide de ces éléments visuels comme entrées, le modèle WFM de Cosmos Transfer génère des résultats photoréalistes, en simulant diverses conditions météorologiques, environnements et éclairages, tout en prédisant les états du monde avec une précision physique basée sur des invites de texte.

Les développeurs peuvent utiliser les WFM de Cosmos généralistes prêts à l'emploi ou les personnaliser avec leurs propres données pour une plus grande précision des SDG en aval.

Initialisation du modèle de politiques

Un modèle de politique guide le comportement d'un système d'IA physique afin de garantir que celui-ci fonctionne en toute sécurité et conformément à ses objectifs. Cosmos Predict ou Cosmos Reason peuvent être post-entraînés dans des modèles de politiques afin de générer des actions, ce qui permet d'économiser les coûts, le temps et les données nécessaires à l'entraînement manuel de politiques.

Évaluation du modèle de politique

Les WFM de Cosmos accélèrent l'évaluation de politiques en simulant des actions réelles à l'aide de sorties vidéo, en utilisant la physique Ground-Truth d'Omniverse pour garantir la précision. Les développeurs peuvent développer un modèle VLA (Vision Language Action) à l'aide de Cosmos Reason, puis l'ajouter pour donner des avis et stimuler des actions. Cette boucle de simulation réduit les coûts, les délais et les risques liés aux tests en conditions réelles, tout en améliorant la précision des politiques.

Moteur multiverse

Les WFM de Cosmos peuvent être post-entraînés pour agir comme un moteur ou un système multivers, en explorant des stratégies de tâches multiples, en récompensant les résultats les plus efficaces et en améliorant la prise de décision pour le contrôle prédictif et l'apprentissage par renforcement. Les développeurs peuvent ajouter un module de récompense aux WFM de Cosmos et simuler des résultats dans Omniverse.

Prochainement

Notre engagement

Démocratiser l'IA fiable pour la communauté de l'IA physique

Les modèles, les barrières de sécurité et les générateurs de jetons Cosmos sont disponibles sur Hugging Face et GitHub, ils sont accompagnés de ressources adaptées à la rareté des données lors de l'entraînement des modèles d'IA physique. Nous nous engageons à faire progresser Cosmos d'une manière transparente, ouverte et conçue pour tous.

Écosystème

Adopté par les principaux innovateurs en IA physique

Les développeurs de modèles dans les secteurs de la robotique, des véhicules autonomes et de vision avec l'IA utilisent Cosmos pour accélérer le développement de l'IA physique.

Prochaines étapes

Vous voulez vous lancer ?

Testez un modèle de fondation de monde dans le catalogue d'API NVIDIA ou commencez à développer vos propres modèles de fondation de monde avec NVIDIA Cosmos.

Post-entraînement de WFM

Utilisez le pipeline de bout en bout de NVIDIA NeMo pour sélectionner, tokeniser et affiner des modèles de monde sur n'importe quelle plateforme.

Organiser des données vidéo pour les modèles de monde

Exploitez un pipeline de traitement et d'organisation des données accéléré par NVIDIA NeMo Curator et optimisé pour les GPU NVIDIA pour les Data Centers.

Foire aux questions

Les développeurs d'IA physique peuvent commencer dès maintenant avec les modèles de fondation de monde Cosmos, disponibles sur Hugging Face et GitHub. Cosmos fournit également un pipeline de bout en bout pour affiner les modèles de fondation avec NVIDIA NeMo. Les développeurs peuvent utiliser le générateur de jetons Cosmos à partir de /NVIDIA/cosmos-tokenizer sur GitHub et Hugging Face.

Les modèles de fondation de monde Cosmos sont disponibles sous licence de modèles ouverts NVIDIA pour tous.

Oui, il existe deux approches concernant le post-entraînement des modèles Cosmos :

1) NeMo vous permet d'entraîner et d'affiner efficacement les modèles à l'aide de techniques populaires telles que l'adaptation de bas rang (LoRA) et l'apprentissage par renforcement à partir des retours humains (RLHF). Vous pouvez également choisir PyTorch pour continuer à entraîner les WFM à l'aide de vos propres ensembles de données. 

2) Vous pouvez utiliser des scripts PyTorch ouverts depuis GitHub pour post-entraîner des WFM de Cosmos.

Oui, vous pouvez exploiter Cosmos pour développer à partir de zéro avec votre modèle de base ou votre architecture de modèle préféré. Vous pouvez commencer par utiliser NeMo Curator pour le prétraitement des données vidéo. Ensuite, compressez et décodez vos données avec le générateur de jetons Cosmos. Une fois les données traitées, vous pouvez entraîner ou affiner votre modèle à l'aide de NVIDIA NeMo.

À l'aide des microservices NVIDIA NIM™, vous pouvez facilement intégrer vos modèles d'IA physique dans vos applications dans le Cloud, les Data Centers et les stations de travail.

Vous pouvez également utiliser NVIDIA DGX Cloud pour entraîner des modèles d'IA et les déployer n'importe où à grande échelle.

Omniverse crée des simulations 3D réalistes de tâches réelles à l'aide de différentes API génératives, de kits de développement logiciel et de la technologie de rendu NVIDIA RTX.

Les développeurs peuvent importer des simulations Omniverse sous forme de vidéos d'instructions dans le modèle Cosmos Transfer afin de générer des données synthétiques photoréalistes contrôlables.

Omniverse fournit l'environnement de simulation avant et après l'entraînement, tandis que Cosmos fournit les modèles de base pour générer des données vidéo et l'entraînement des modèles d'IA physique.

En savoir plus sur NVIDIA Omniverse.