Génération de données synthétiques (SDG)

Accélérez le développement des workflows d'IA physique et agentique.

Charges de travail

Simulation/modélisation/conception
Robotique
IA générative

Industries

Toutes les industries

Objectifs commerciaux

Innovation

Produits

NVIDIA Omniverse Enterprise
NVIDIA AI
NVIDIA Isaac

Aperçu

Pourquoi utiliser des données synthétiques ?

L'entraînement des modèles d'IA nécessite des ensembles de données diversifiés, soigneusement étiquetés et de haute qualité pour atteindre la précision et les performances souhaitées. Les données sont, dans de nombreux cas, limitées, restreintes ou indisponibles. La collecte et l'étiquetage de ces données réelles prend beaucoup de temps et peut s'avérer extrêmement coûteuse, ce qui ralentit le développement de divers types de modèles, tels que les modèles de langage de vision et les grands modèles linguistiques (LLM).

Les données synthétiques, qu'elles soient générées à partir d'une simulation informatique, de modèles d'IA générative ou d'une combinaison des deux, peuvent contribuer à résoudre ce problème. Les données synthétiques peuvent se composer de texte, de vidéos et d'images 2D ou 3D dans des domaines visuels et non visuels, qui peuvent être utilisés conjointement avec des données réelles pour entraîner des modèles d'IA physique multimodaux. Cela permet souvent de gagner beaucoup de temps en matière d'entraînement et de réduire considérablement les coûts.

Les données synthétiques, qu'elles soient générées par des simulations ou par l'IA, résolvent le problème de rareté des données en fournissant des textes, des vidéos et des images 2D/3D qui peuvent être utilisés avec des données réelles pour entraîner des modèles d'IA physique multimodaux, ce qui permet de gagner du temps et de réduire les coûts.

Vitesse d'entraînement des modèles d'IA

Comblez le manque de données et accélérez le développement des modèles d'IA tout en réduisant le coût global d'acquisition et d'étiquetage des données nécessaires à l'entraînement des modèles.

Confidentialité et sécurité

Résolvez les problèmes de confidentialité et réduisez les biais en générant différents ensembles de données synthétiques pour représenter le monde réel.

Précision

Créez des modèles d'IA généraliste très précis en les entraînant avec des données diverses qui comprennent des créneaux rares mais cruciaux autrement impossibles à collecter.

Évolutivité

Générez des données de manière procédurale avec des données de pipeline automatisées qui évoluent avec votre cas d'utilisation dans les domaines de la fabrication, de l'automobile et de la robotique, entre autres.

Données synthétiques pour le développement de l'IA physique

Les modèles d'IA physique permettent aux systèmes autonomes de percevoir, de comprendre, d'interagir avec le monde physique et d'y naviguer. Les données synthétiques sont essentielles pour entraîner et tester les modèles d'IA physique.

Entraînement des modèles de fondation

Les modèles de fondation de mondes (WFM) utilisent diverses données d'entrée, notamment du texte, des images, des vidéos et des informations sur les mouvements, pour générer et simuler des mondes virtuels avec une précision remarquable. 

Les WFM se caractérisent par leurs capacités de généralisation exceptionnelles et nécessitent un réglage minimal dans différentes applications. Ils jouent le rôle de moteurs cognitifs dans les robots et les véhicules autonomes, en tirant parti de leur compréhension complète des différents dynamiques du monde réel. Pour atteindre ce niveau de sophistication, les WFM s'appuient sur de grandes quantités de données d'entraînement. 


La génération de données synthétiques infinies par le biais de simulations physiquement précises profite grandement au développement des WFM. Cette approche accélère non seulement le processus d'entraînement des modèles, mais améliore également la capacité des modèles à effectuer des généralisations dans différentes situations. Les techniques de randomisation de domaines améliorent encore ce processus en permettant de manipuler de nombreux paramètres tels que l'éclairage, l'arrière-plan, la couleur, l'emplacement et l'environnement, des variations qui seraient presque impossibles à extraire pleinement de données réelles. 

Entraînement des politiques de robots

L'apprentissage robotique est constitué d'algorithmes et de méthodologies qui aident un robot à apprendre de nouvelles compétences, telles que la manipulation, la locomotion et la classification, dans un environnement simulé ou réel. L'apprentissage par renforcement, l'apprentissage par imitation et les politiques de diffusion sont les méthodologies clés qui sont appliquées pour entraîner les robots.  

Une compétence importante des robots est la manipulation, à savoir, saisir des objets, les trier et les assembler, comme vous le voyez dans les usines. Des démonstrations humaines effectuées dans le monde réel sont généralement utilisées comme intrants pour l'entraînement. Cependant, la collecte d'ensembles de données volumineux et diversifiés coûte assez cher.

Pour surmonter ce défi, les développeurs peuvent utiliser les modèles NVIDIA Isaac GR00T-Mimic et GR00T-Dreams basés sur NVIDIA Cosmos™ pour produire des jeux de données de mouvements synthétiques importants et diversifiés à des fins d'entraînement.

Le modèle NVIDIA Isaac GR00T-Dreams génère de grandes quantités de données de trajectoire synthétiques à l'aide de Cosmos, à partir d'une seule image et d'instructions de langage. Les robots peuvent ainsi apprendre de nouvelles tâches dans des environnements inconnus sans avoir besoin de données de téléopération spécifiques.

Ces jeux de données peuvent ensuite être utilisés pour entraîner les modèles de fondation ouverts Isaac GR00T N au sein d'Isaac Lab, afin de permettre un raisonnement humanoïde généralisé et une solide acquisition de compétences.

Tests et validation

L'étape Software-in-loop (SIL) est une étape de test et de validation critique dans le développement de robots et de véhicules autonomes pilotés par l'IA, dans laquelle les logiciels de contrôle sont testés dans un environnement simulé plutôt que sur du matériel réel.

Les données synthétiques générées à partir de simulations garantissent que la modélisation des composants physiques du monde réel est précise, notamment les entrées des capteurs, la dynamique des actionneurs et les interactions environnementales. Cela permet également d'inclure des situations rares qui sont dangereuses à collecter dans le monde réel. Cela garantit que la pile logicielle du robot utilisée en simulation se comporte comme elle le ferait dans le robot physique et permet de la tester et de la valider soigneusement sans avoir recours à du matériel physique.

Mega est un modèle Omniverse™ qui permet de développer, de tester et d'optimiser l'IA physique et des flottes de robots à grande échelle dans un jumeau numérique avant de les déployer dans des installations réelles.

Ces robots simulés peuvent effectuer des tâches en percevant et en raisonnant dans leurs environnements. Ils sont capables de planifier les prochains mouvements et d'exécuter des actions qui sont simulées dans le jumeau numérique. Les données synthétiques tirées de ces simulations sont renvoyées dans le cerveau des robots. Le cerveau des robots perçoit les résultats qui déterminent la prochaine action et ce cycle se poursuit, Mega suivant précisément l'état et la position de tous les éléments dans le jumeau numérique.

Données synthétiques pour le développement des LLM et de l'IA agentique

Les modèles génératifs peuvent être utilisés pour amorcer et augmenter les processus de génération de données synthétiques. Les modèles texte-à-3D permettent de créer des ressources 3D pour remplir une scène de simulation 3D. Les modèles d'IA générative texte-à-image peuvent également être utilisés pour modifier et augmenter des images existantes, issues de simulations ou collectées dans le monde réel par le biais de procédures additives ou soustractives.

Les modèles d'IA générative texte-à-texte, tels que Evian 2 405B et Nemotron-4 340B, peuvent être utilisés pour générer des données synthétiques afin de développer de puissants LLM dans les secteurs de la santé, de la finance, de la cybersécurité, de la vente au détail et des télécommunications. 

Evian 2 405B et Nemotron-4 340B fournissent une licence ouverte, accordant aux développeurs les droits de posséder et d'utiliser les données générées dans leurs applications d'enseignement et commerciales.

Comment développer un pipeline de SDG basé sur l'IA générative

L'IA générative peut considérablement accélérer la génération de données synthétiques physiquement précises à grande échelle. Les développeurs peuvent commencer à utiliser l'IA générative dans la SDG avec un workflow de référence étape par étape.


Implémentation technique

Générer des données synthétiques

Pour l'IA physique

  • Création de scènes : une scène 3D complète sert de fondation, incluant des éléments essentiels tels que des étagères, des boîtes et des palettes pour les entrepôts, ou des arbres, des routes et des bâtiments dans les environnements extérieurs. Les environnements peuvent être améliorés dynamiquement à l'aide des microservices NVIDIA NIM™ pour OpenUSD (Universal Scene Description), ce qui permet d'ajouter facilement différents objets et d'intégrer des arrière-plans HDRI à 360°.
  • Randomisation de domaines : les développeurs peuvent exploiter USD Code NIM, un LLM de pointe spécialisé dans OpenUSD, pour effectuer la randomisation de domaines. Ce puissant outil répond non seulement aux requêtes liées à OpenUSD, mais génère également du code Python USD pour apporter des modifications à la scène, ce qui rationalise le processus de modification programmatique de différents paramètres de scène dans NVIDIA Omniverse.
  • Génération de données : la troisième étape consiste à exporter l'ensemble d'images annotées initial. Omniverse propose une grande variété d'annotations intégrées, notamment des zones de délimitation 2D, la segmentation sémantique, les cartes de profondeur, les normes de surface et de nombreuses autres. Le choix du format de sortie, tel que les zones de délimitation ou les animations, dépend des exigences spécifiques du modèle ou du cas d'utilisation.
  • Augmentation des données : lors de la phase finale, les développeurs peuvent exploiter les WFM NVIDIA Cosmos pour augmenter les images de la 3D au réel. Cela permet d'offrir aux images générées le photoréalisme nécessaire grâce à de simples invites d'utilisateur.

Pour les LLM et l'IA agentique

  • Accédez aux modèles : téléchargez la famille de modèles open source Nemotron-4 340B depuis le catalogue NVIDIA NGC™ ou Hugging Face. Vous pouvez également y accéder depuis build.nvidia.com sous forme de microservices NVIDIA NIM.
  • Génération de données spécifiques à un domaine : instruisez le modèle open source Nemotron-4-340B-Instruct à générer votre jeu de données synthétiques personnalisé textuel applicable à différents domaines, imitant les caractéristiques du monde réel.
  • Évaluez et filtrez : appliquez le modèle Nemotron-4 340B-Reward pour classer les réponses générées en fonction de leur utilité, exactitude, cohérence, complexité et verbosité.
  • Exploitez des jeux de données synthétiques pertinents et de haute qualité : affinez les données synthétiques en les améliorant de manière itérative en fonction des retours d'information du modèle Reward, garantissant ainsi leur exactitude et leur pertinence. 

Écosystème de partenaires

Écosystème de partenaires de données synthétiques

Découvrez comment notre écosystème de partenaires développe ses propres applications et services de données synthétiques en s'appuyant sur les technologies NVIDIA.

Entreprises de données synthétiques

Partenaires en prestation de services

Commencer

Développez votre propre pipeline de SDG pour les simulations robotiques, les inspections industrielles et d'autres cas d'utilisation de l'IA physique avec NVIDIA Isaac Sim.

RTX PRO Server, la meilleure plateforme pour l’IA industrielle et physique

NVIDIA RTX PRO Server accélère toutes les charges de travail de numérisation industrielle, de simulation de robots et de génération de données synthétiques.

Cas d'utilisation associés