Robotique et IA à l'Edge
Skild AI
Skild AI, alimentée par l'infrastructure de calcul accéléré de NVIDIA, a développé une technique novatrice pour entraîner un modèle de base de robot omni-corps capable de s'adapter à de nouvelles incarnations de robots et d'accomplir de nouvelles compétences avec un post-entraînement nul ou minimal. L'entreprise utilise les bibliothèques NVIDIA Omniverse™ et des frameworks ouverts tels que NVIDIA Isaac™ Lab pour la simulation physique avancée, et NVIDIA Cosmos™ pour l'augmentation et la génération de données afin d'entraîner son modèle fondamental.
Principaux enseignements
Depuis des années, la robotique est aux prises avec le même problème insoluble : comment développer des robots capables d'effectuer des milliers de tâches dans des milliers d'environnements et dans une variété de morphologies. Bien que l'intelligence artificielle ait obtenu un succès remarquable en matière de langage et de vision grâce à la recette simple de grands jeux de données, de grands réseaux et d'entraînement de GPU, l'IA physique fiable qui comprend la physique et les relations spatiales et qui fournit les commandes de moteur correctes pose de nouveaux défis.
Contrairement aux domaines aux données Internet abondantes, la robotique a souffert d'une grave peinurie de données. La collecte de données dans le monde réel sur des robots physiques est lente et coûteuse. L'exploitation de robots pour la collecte de données prend quelques minutes pour générer une seule démonstration de haute qualité, mais les systèmes d'IA ont besoin de milliards d'échantillons d'entraînement pour être efficaces. Les robots sans données d'entraînement suffisantes pour fonctionner de manière fiable ne peuvent pas être déployés à grande échelle pour capturer de nouvelles données opérationnelles afin d'entraîner des compétences plus complexes. Cette limitation a enfermé la robotique dans un état de démonstrations impressionnantes avec un succès limité de déploiement dans le monde réel.
Skild AI a développé un véritable modèle de fondation robotique appelé Skild Brain. Contrairement à d'autres modèles de robotique qui sont suradaptés à des types spécifiques de robots, le cerveau Skild est omni-corps, ce qui signifie qu'il peut contrôler n'importe quel robot, même sans connaître la composition exacte de son corps. Comme un cerveau humain, il dispose d'un décideur de haut niveau qui détermine ce que le robot doit faire (comme « ramasser cette tasse ») et d'un contrôleur de bas niveau qui gère les mouvements musculaires précis nécessaires pour exécuter ces commandes.
Pour surmonter la pénurie de données, Skild AI exploite deux sources de données alternatives : la génération de données synthétiques basée sur la physique et les vidéos humaines issues d'Internet. Contrairement à la collecte de données téléopérée dans le monde réel, ces sources sont évolutives presque à l'infini. Les simulations peuvent être mises à l'échelle en les dupliquant sur un plus grand nombre de GPU, alors qu'il existe un énorme jeu de données de vidéos en croissance constante disponible sur Internet.
La principale avancée de l'entreprise réside dans des modèles qui s'adaptent via l'apprentissage en contexte. En analysant les actions qui ne fonctionnent pas comme prévu, les robots développent ce qui ressemble à l'intuition, en ajustant leur comportement en fonction de différents environnements. Cela permet aux robots d'opérer de manière dynamique dans des environnements complexes, sans nécessiter d'instructions pré-programmées pour chaque scénario.
Skild AI utilise Isaac Lab pour créer les scénarios d'entraînement en simulation nécessaires au développement de l'apprentissage par renforcement de robots dans des conditions difficiles. L'entreprise exploite Cosmos Transfer pour augmenter les jeux de données d'entraînement avec des variations environnementales, élargissant ainsi la portée et la robustesse des données d'entraînement neuronal. Cette approche de simulation multi-facettes permet à Skild AI d'acquérir une expérience millénaire en quelques jours, ce qui rend possible l'entraînement robotique à grande échelle à une vitesse sans précédent.
Skild AI a créé des simulations à grande échelle avec des milliers d'instances de robot dans de multiples réalisations, notamment des humanoïdes, des quadrupèdes et des bras robotiques, chacune avec des morphologies distinctes et déployées dans des milliers d'environnements pour maximiser la généralisation. Cet entraînement à la génération de données synthétiques alimente un cerveau omni-corps, empêchant le modèle d'IA de mémoriser des solutions pour des configurations matérielles spécifiques et le forçant à la place à développer des stratégies d'apprentissage en contexte qui fonctionnent universellement sur tous les types de robots.
La génération de données synthétiques via la simulation avancée représente un pilier essentiel de la pile technologique de Skild AI. L'entreprise génère des milliards d'exemples d'entraînement grâce à une simulation basée sur la physique, ce qui permet aux robots d'expérimenter des scénarios de défaillance en toute sécurité et de manière approfondie.
Ceci est essentiel car les robots ont d'innombrables façons d'échouer comparativement aux façons limitées de réussir, ce qui rend impossible la capture de tous les scénarios d'échec via la collecte de données traditionnelle. Grâce à Cosmos Transfer, Skild AI est en mesure d'augmenter et de multiplier les jeux de données via des prompts textuels, en générant des conditions environnementales, des scénarios d'éclairage et des caractéristiques visuelles variés pour maximiser la robustesse de l'entraînement. La simulation permet aux robots d'expérimenter en toute sécurité des millions de défaillances dans divers environnements avant de maîtriser l'approche correcte et d'obtenir la robustesse nécessaire au déploiement dans le monde réel.
Le modèle démontre une adaptabilité remarquable aux changements mécaniques, en se remettant d'une roue bloquée en 2 à 3 secondes et d'une jambe cassée après plusieurs tentatives plutôt que de subir un échec. Cette résilience s'étend à des scénarios extrêmes, notamment la marche sur des échasses avec des rapports jambes-corps prolongés qui dépassent les paramètres d'entraînement, et est une forme d'apprentissage zéro-shot qui montre de véritables capacités de généralisation.
La deuxième partie clé consiste à apprendre à partir de vidéos d'humains. Pour capturer la diversité du monde réel, Skild AI exploite les trillions de vidéos disponibles en ligne montrant des humains effectuant diverses tâches sur des plateformes. En traitant les humains comme des robots biologiques, l'entreprise a développé des techniques avancées pour extraire des affordances, aidant le cerveau du robot à comprendre comment manipuler les objets en observant les interactions humaines.
L'infrastructure de calcul d'IA de NVIDIA prend en charge les exigences de calcul massives pour l'entraînement de modèles de fondation robotique sur plusieurs modalités de données simultanément. Ensemble, les bibliothèques et les frameworks de calcul accéléré et de simulation de NVIDIA créent l'infrastructure fondamentale qui permet à Skild AI d'obtenir des résultats révolutionnaires avec du matériel rentable, en développant des robots qui coûtent entre 4 000 et 15 000 dollars par rapport aux systèmes robotiques traditionnels qui nécessitent des investissements supérieurs à 250 000 dollars.
Skild a publié des résultats récents montrant les capacités du cerveau omni-corps dans divers scénarios.
Locomotion de bout en bout basée sur la vision
Skild Brain permet un contrôle de locomotion de bout en bout entièrement basé sur la vision en temps réel et la proprioception. En se basant sur des images de caméra brutes et des retours des articulations, le modèle émet directement des commandes motrices de bas niveau, permettant aux robots humanoïdes de marcher sur un sol plat et d'escalader des obstacles élevés. Les robots conservent une agilité remarquable même lorsqu'ils transportent des charges utiles telles que des colis entre leurs mains.
Lors de tests dans l'environnement urbain difficile de Pittsburgh, les robots humanoïdes de Skild AI ont démontré des capacités pratiques, en atteignant 60 à 80 % de rendement sur une tâche en quelques heures après la collecte de données. Les robots ont effectué avec succès des tâches de manipulation complexes tout en restant robustes face à l'interférence humaine et aux variations environnementales. Ils ont été testés dans des parcs urbains et des rues, en montant des escaliers de secours et en surmontant des obstacles dans des environnements qu'ils n'avaient jamais vus auparavant, le tout sans planification ni cartographie préalable.
Manipulation précise et fiable
L'automatisation de tâches réelles nécessite un degré élevé de précision et de fiabilité. Skild AI a montré la capacité du cerveau à automatiser plusieurs tâches utiles, telles que le nettoyage d'un bureau à domicile et l'insertion d'AirPods dans des étuis, une tâche actuellement effectuée par des humains pendant des milliers d'heures chaque jour.
Adaptation extrême
Skild a montré la capacité du cerveau à s'adapter à des scénarios extrêmes, tels que la perte d'un ou de plusieurs membres. Dans ce cas, le cerveau utilise l'apprentissage en contexte et interagit avec l'environnement pour récupérer.
Skild AI développe une intelligence à usage général qui s'adapte à différentes plateformes robotiques. L'entreprise se concentre sur l'évolutivité pour créer un cerveau unique centré sur l'action pour toutes les incarnations de robots, toutes les tâches et tous les scénarios, et conçu de manière unique pour des applications d'IA physique.
Le travail de Skild AI démontre que l'avenir de la robotique ne réside pas dans la collecte de plus de données robotiques, mais dans l'exploitation intelligente des grandes quantités de simulations et de données comportementales humaines déjà disponibles, traitées via des systèmes d'IA avancés capables de s'adapter en permanence au monde réel.
« L'apprentissage par l'expérience, et non la préprogrammation, est le changement radical qui s'est produit en robotique. Les technologies NVIDIA Isaac Lab et Cosmos nous permettent de créer des sources de données massives et évolutives nécessaires aux robots pour apprendre réellement de l'expérience dans divers scénarios et incarnations. »
Deepak Pathak
Cofondateur et PDG de Skild AI
Découvrez la plateforme robotique ouverte NVIDIA Isaac pour accélérer le développement de la robotique de bout en bout, la simulation, la génération de données synthétiques et les frameworks d'apprentissage de robots qui permettent d'entraîner des robots à une échelle sans précédent.