L'IA physique

NVIDIA Cosmos

Accélérez le développement de l'IA physique avec des modèles de fondation du monde.

Les modèles de fondation du monde de Cosmos sont ouverts à la communauté des développeurs d'IA physique

De tout nouveaux modèles à la pointe de la technologie et entraînés avec des millions d'heures de données vidéo de conduite et de robotique sont désormais disponibles via un modèle de licence ouvert pour démocratiser le développement de l'IA physique.

La plateforme de modèles de fondation du monde pour accélérer le développement de l'IA physique

Le développement de systèmes intégrés d'IA physique, tels que les robots et les véhicules autonomes, est désormais accéléré par la nouvelle plateforme NVIDIA Cosmos.

Avantages

Accélérer le développement de l'IA physique avec des modèles de fondation du monde

Cosmos offre aux développeurs un accès ouvert et facile à des modèles de fondation du monde et des pipelines de données hautement performants, rendant le développement de l'IA physique accessible à tous.

La physique consciente

Suite de modèles vidéo de première génération formés sur 9 000 milliards de jetons incluant 20 millions d'heures de données robotiques et de conduite et générant des vidéos de haute qualité à partir d'entrées multimodales comme des images, du texte ou de la vidéo.

Ouvrir

Les WFM et les générateurs de jetons Cosmos sont sous licence NVIDIA Open Model, ce qui permet aux développeurs du monde entier de construire des systèmes d'IA physiques à grande échelle sans coûts d'entrée élevés.

Accélérer le traitement et la conservation des données

Multipliez la conservation des données par 20 avec le pipeline NVIDIA NeMo Curator de CUDATM-X et les outils accélérés par l'IA de NVIDIA pour le traitement de plus de 100 Po de données. Ce dernier fournit des optimisations prêtes à l'emploi, minimisant le coût total de possession (TCO) et accélérant le délai de mise sur le marché.

Développez des modèles personnalisés

Le générateur de jetons Cosmos convertit les données visuelles en jetons haute fidélité avec une compression 8 fois meilleure et un traitement 12 fois plus rapide.

NVIDIA NeMo™ offre un entraînement accéléré et un réglage précis pour créer des modèles d'IA générative multimodale pour l'IA physique.

Modèles

Modèles NVIDIA Cosmos World Foundation

Une famille de modèles pré-entraînés conçus spécialement pour générer des vidéos et des états du monde basés sur la physique consciente pour le développement physique de l'IA.


Pour en savoir plus sur les architectures de modèle, les ressources de développement et la disponibilité, cliquez ici.

Famille de modèles à la pointe de la technologie

  • Modèles autorégressifs et de diffusion pour la génération Text-to-World et Video-to-World, disponibles dans des tailles de paramètres allant de 4 à 14 milliards pour répondre à divers besoins.
  • Modèle de suréchantillonnage de 12 milliards de paramètres pour affiner les invites de texte, offrant une précision et des détails améliorés dans les sorties générées.
  • Modèle de 7 milliards de paramètres conçu pour le décodage de séquences vidéo, optimisé pour les applications de réalité augmentée.

Garde-corps intégrés

  • Protéger préalablement pour filtrer les marques, le contenu NSFW et les messages nuisibles.
  • Protéger a posteriori pour supprimer les scénarios douteux.
  • Garde-corps pour brouiller les visages humains.
  • Filigranes numériques sur des vidéos synthétiques générées à partir des API de prévisualisation du catalogue d'API NVIDIA.

Benchmarks

Voyage vers la performance de l'IA physique

NVIDIA travaille avec l'écosystème de la robotique et des véhicules autonomes pour développer un ensemble de benchmarks qui reflètent les exigences uniques des applications physiques d'IA à partir de modèles de fondation du monde.

Les benchmarks Cosmos sont conçus pour évaluer la prochaine génération de modèles du monde avec des critères avancés comme la cohérence 3D et l'alignement physique, essentiels pour la robotique et les systèmes autonomes.

Comparés à VideoLDM (VLDM), un modèle générateur de référence pour la synthèse vidéo, les WFM Cosmos excellent dans le domaine de la précision géométrique avec un taux d'erreur Sampson plus faible et une meilleure stabilité temporelle. Les benchmarks évaluent également les modèles de fondation du monde basés sur des comportements physiques comme la gravité et la dynamique de collision.

Les modèles de fondation du monde Cosmos surpassent constamment les VLDM en matière de cohérence visuelle, atteignant des taux de réussite d'estimation de pose jusqu'à 14 fois plus élevés. Les modèles de diffusion offrent une meilleure fidélité dès l'emploi, mais les modèles autorégressifs offrent d'excellentes performances pour les modèles personnalisés.

Cas d'utilisation

Comment les développeurs utilisent-ils NVIDIA Cosmos ?

Découvrez comment les développeurs spécialisés dans la robotique, les véhicules autonomes et de vision avec l'IA peuvent utiliser Cosmos pour faire progresser leur travail.

Recherche de vidéos

Cosmos aide les développeurs à créer des jeux de données sur mesure pour leur formation de modèles d'IA. Qu'il s'agisse de séquences de routes enneigées pour les véhicules autonomes ou de scènes d'entrepôt occupées pour la robotique, Cosmos simplifie le marquage et la recherche vidéo en comprenant les modèles spatiaux et temporels, ce qui facilite la préparation des données d'entraînement.

Cela permet de gagner du temps, de réduire les coûts et de fournir des modèles d'IA très pertinents et percutants pour une utilisation dans le monde réel.

Données synthétiques 3D-to-Real contrôlable

Les développeurs peuvent tirer parti de leurs données de simulation 3D pour générer des vidéos synthétiques photoréalistes. En utilisant Omniverse, ils peuvent créer des environnements 3D qui représentent leurs besoins d'entraînement de modèles. Ils peuvent ensuite générer des vidéos photoréalistes contrôlées avec précision par des scènes 3D pour des ensembles de données synthétiques hautement personnalisés.

Entraînement et évaluation du modèle de politique

Les modèles de fondation du monde Cosmos, adaptés à la prévision vidéo conditionnée par l'action, permettent un entraînement et une évaluation évolutives et reproductibles des modèles de politiques, qui définissent des stratégies pour les systèmes d'IA physiques, en cartographiant les états sur les actions. Les développeurs utilisent ces modèles pour réduire la dépendance à des tests réels risqués ou des simulations complexes pour des tâches comme la navigation par obstacles et la manipulation d'objets, optimisant ainsi les performances et garantissant la fiabilité dans des applications réelles comme la robotique et les véhicules autonomes.

Foresight

Cosmos confère une intelligence prédictive avancée à l'IA physique, permettant aux systèmes d'anticiper les scénarios futurs et de prendre des décisions plus intelligentes. Grâce à la génération de prévision, générant des vidéos prédictives basées sur des données passées et des invites textuelles, Cosmos permet à l'IA physique de sélectionner des actions optimales, améliorant ainsi l'efficacité, l'adaptabilité et la sécurité dans des environnements dynamiques.

Simulation de multivers

Grâce à NVIDIA Omniverse, les développeurs peuvent simuler plusieurs résultats Cosmos pour évaluer des scénarios en temps réel, accélérer la prise de décision et optimiser les systèmes pilotés par l'IA comme la robotique et les véhicules autonomes. Ensemble, Cosmos et Omniverse permettent aux modèles physiques d'IA d'explorer tous les résultats futurs possibles, en sélectionnant le meilleur pour une précision et une fiabilité accrues dans des environnements complexes.

Écosystème

Adopté par les principaux innovateurs en IA physique

Les développeurs de modèles dans les secteurs de la robotique, des véhicules autonomes et de vision avec l'IA utilisent Cosmos pour accélérer le développement de l'IA physique.

Prochaines étapes

Vous voulez vous lancer ?

Testez un modèle de fondation du monde dans le catalogue des API NVIDIA ou commencez à développer vos modèles de fondation du monde avec NVIDIA Cosmos.

Développez vos modèles personnalisés

NVIDIA NeMo fournit un pipeline de bout en bout pour organiser, tokeniser et affiner les modèles de fondation du monde sur n'importe quelle plateforme.

Commencer à organiser des données vidéo pour des modèles de fondation du monde

Traitement accéléré des données et pipeline de conservation alimentés par NVIDIA NeMo Curator et optimisés pour les GPU de datacenter NVIDIA.

Foire aux questions

Les développeurs d'IA physique peuvent commencer dès maintenant avec les modèles de fondation du monde Cosmos disponibles dans le catalogue NGC et Hugging Face. Cosmos fournit également un pipeline de bout en bout pour affiner les modèles de fondation du monde avec NVIDIA NeMo. Les développeurs peuvent utiliser le générateur de jetons Cosmos à partir de /NVIDIA/cosmos-tokenizer sur GitHub et Hugging Face.

Les modèles de fondation du monde Cosmos sont accessibles à tous sous une licence NVIDIA Open Model.

Oui, Cosmos prend en charge l'optimisation avec NeMo. Vous pouvez efficacement entraîner et optimiser vos modèles avec des techniques populaires comme LoRA et ARRH (Apprentissage par renforcement avec rétroaction humaine). Vous pouvez également choisir PyTorch pour continuer à former les modèles de fondation du monde en utilisant vos jeux de données.

Oui, vous pouvez utiliser Cosmos pour créer à partir de zéro votre modèle de base ou votre architecture de modèle préférée. Vous pouvez commencer par utiliser NeMo Curator pour le prétraitement des données vidéo. Ensuite, compressez et décodez vos données avec le générateur de jetons Cosmos et, une fois que vous avez traité les données, vous pouvez entraîner ou optimiser votre modèle à l'aide de NVIDIA NeMo.

Grâce aux microservices NIM, vous pouvez facilement intégrer vos modèles d'IA physiques dans vos applications dans le cloud, les data centers et les stations de travail.

Vous pouvez également utiliser NVIDIA DGX Cloud pour entraîner des modèles d'IA et les déployer n'importe où et à grande échelle.

Cosmos et Cosmos Nemotron sont des familles de modèles NVIDIA conçus pour traiter et interpréter des visuels du monde physique.

Les modèles Cosmos sont des modèles de fondation du monde qui se concentrent sur la prédiction et la génération de vidéos conscientes de la physique, et aident à simuler et à comprendre les états futurs des environnements virtuels. En revanche, les modèles Cosmos Nemotron sont des modèles en langage de vision qui se spécialisent dans l'interrogation et le résumé des images et des vidéos, permettant à l'IA d'interpréter et de répondre aux données visuelles physiques.

Ils sont complémentaires et permettent d'obtenir des capacités d'IA avancées basées sur la compréhension visuelle.