Robótica e IA perimetral
Skild AI
Skild AI, impulsada por la infraestructura de computación acelerada de NVIDIA, ha desarrollado una técnica novedosa para entrenar un modelo de base de robot de omnicuerpo capaz de adaptarse a nuevas incorporaciones de robots y realizar nuevas habilidades con cero o un entrenamiento posterior mínimo. La empresa utiliza bibliotecas NVIDIA Omniverse™ y marcos abiertos, como NVIDIA Isaac™ Lab para simulación física avanzada y NVIDIA Cosmos™ para el aumento y la generación de datos para entrenar su modelo de base.
Principales conclusiones
Durante años, la robótica ha tenido dificultades con el mismo problema intratable: cómo crear robots capaces de miles de tareas en miles de entornos y con diversas morfologías. Si bien la inteligencia artificial ha logrado un éxito notable en lenguaje y visión a través de la receta simple de conjuntos de datos de gran tamaño, grandes redes y entrenamiento de GPU, la IA física de confianza que comprende la física y las relaciones espaciales y emite los comandos de motor correctos plantea nuevos desafíos.
A diferencia de los dominios con abundantes datos de Internet, la robótica ha sufrido de escasez de datos crítica. La recopilación de datos en el mundo real en robots físicos es lenta y costosa: la operación de robots para la recopilación de datos tarda minutos en generar una única demostración de alta calidad, pero los sistemas de IA necesitan miles de millones de muestras de entrenamiento para ser efectivos. Los robots sin datos de entrenamiento suficientes para funcionar de manera fiable no se pueden implementar a escala para capturar nuevos datos operativos para entrenar habilidades más complejas. Esta limitación ha mantenido la robótica bloqueada en un estado de demostraciones impresionantes con un éxito limitado de implementación en el mundo real.
Skild AI creó un verdadero modelo de base de robótica llamado Skild Brain. A diferencia de otros modelos de robótica que están demasiado adaptados a tipos específicos de robots, Skild Brain es omnifuncional, lo que significa que puede controlar cualquier robot, incluso sin conocer su cuerpo exacto. Al igual que un cerebro humano, tiene un responsable de la toma de decisiones de alto nivel que determina lo que el robot debe hacer (como "recoger esa taza") y un controlador de bajo nivel que gestiona los movimientos musculares precisos necesarios para ejecutar esos comandos.
Para superar la escasez de datos, Skild AI aprovecha dos fuentes de datos alternativas: generación de datos sintéticos basada en la física y vídeos humanos de Internet. A diferencia de la recopilación de datos teleoperada en el mundo real, estas fuentes son casi infinitamente escalables. Las simulaciones se pueden escalar al duplicarlas en más GPU, mientras que hay un enorme conjunto de datos de vídeos en constante crecimiento disponible en Internet.
El avance clave de la empresa son los modelos que se adaptan a través del aprendizaje en contexto. Al analizar cuándo las acciones no funcionan como se esperaba, los robots desarrollan lo que se asemeja a la intuición, ajustando su comportamiento en función de diferentes entornos. Esto permite a los robots operar de forma dinámica en entornos complejos, sin requerir instrucciones preprogramadas para cada escenario.
Skild AI utiliza Isaac Lab para crear los escenarios de entrenamiento de simulación necesarios para el desarrollo de aprendizaje de refuerzo de robots en condiciones desafiantes. La empresa aprovecha Cosmos Transfer para aumentar los conjuntos de datos de entrenamiento con variaciones ambientales, ampliando el alcance y la robustez de los datos de entrenamiento neuronal. Este enfoque de simulación de varios frentes permite a Skild AI adquirir un milenio de experiencia en cuestión de días, lo que hace posible el entrenamiento robótico a gran escala a una velocidad sin precedentes.
Skild AI creó simulaciones a escala masiva con miles de instancias de robots en varias realizaciones, incluidos humanoides, cuadrúpedos y brazos robóticos, cada una con morfologías distintas e implementadas en miles de entornos para maximizar la generalización. Este entrenamiento de generación de datos sintéticos impulsa un cerebro omnicuerpo, lo que evita que el modelo de IA memorize soluciones para configuraciones de hardware específicas y, en su lugar, lo obliga a desarrollar estrategias de aprendizaje en contexto que funcionan de forma universal en todos los tipos de robots.
La generación de datos sintéticos a través de simulación avanzada representa un pilar central de la pila de tecnología de Skild AI. La empresa genera miles de millones de ejemplos de entrenamiento a través de simulación basada en la física, lo que permite a los robots experimentar escenarios de fallo de forma segura y extensiva.
Esto es esencial porque los robots tienen innumerables formas de fallar en comparación con las formas limitadas en que pueden tener éxito, lo que hace imposible capturar todos los escenarios de fallo a través de la recopilación de datos tradicional. Con Cosmos Transfer, Skild AI puede aumentar y multiplicar conjuntos de datos a través de indicaciones de texto, generando variadas condiciones ambientales, escenarios de iluminación y características visuales para maximizar la robustez del entrenamiento. La simulación permite a los robots experimentar millones de fallos en diversos entornos de forma segura antes de dominar el enfoque correcto, creando la robustez necesaria para la implementación en el mundo real.
El modelo demuestra una notable adaptabilidad a los cambios mecánicos, recuperándose de ruedas atascadas en 2-3 segundos y patas rotas después de varios intentos en lugar de experimentar errores. Esta resiliencia se extiende a escenarios extremos, incluido el caminar sobre zancos con relaciones extendidas entre piernas y cuerpo que superan los parámetros de entrenamiento, y es una forma de aprendizaje de cero disparos que muestra verdaderas capacidades de generalización.
La segunda parte clave es el aprendizaje a partir de los vídeos humanos. Para capturar la diversidad del mundo real, Skild AI aprovecha los trillones de vídeos disponibles en línea que muestran a los humanos realizando varias tareas en todas las plataformas. Al tratar a los humanos como robots biológicos, la empresa desarrolló técnicas avanzadas para extraer posibilidades de acción, ayudando al cerebro del robot a comprender cómo se deben manipular los objetos al observar las interacciones humanas.
La infraestructura de computación de IA de NVIDIA impulsa los requisitos computacionales masivos para entrenar modelos de base de robótica en varias modalidades de datos simultáneamente. En conjunto, las bibliotecas y los marcos de computación acelerada y simulación de NVIDIA crean la infraestructura fundamental que permite Skild AI lograr resultados innovadores con hardware rentable, desarrollando robots que cuestan entre 4000 y 15 000 dólares en comparación con los sistemas robóticos tradicionales que requieren inversiones de más de 250 000 dólares.
Skild ha publicado resultados recientes que muestran las capacidades del cerebro omnicuerpo en varios escenarios.
Locomoción de extremo a extremo a partir de la visión
Skild Brain permite el control de locomoción de extremo a extremo impulsado completamente por visión y propiocepción en tiempo real. A partir de imágenes de cámara sin procesar y retroalimentación conjunta, el modelo emite directamente comandos de motor de bajo nivel, lo que permite a los robots humanoides caminar sobre suelo plano y escalar obstáculos de altura. Los robots mantienen una agilidad notable incluso mientras llevan cargas útiles, como paquetes, en sus manos.
Al realizar pruebas en el entorno urbano desafiante de Pittsburgh, los robots humanoides de Skild AI demostraron capacidades prácticas, logrando un rendimiento de tareas del 60 %-80 % en cuestión de horas de recopilación de datos. Los robots realizaron con éxito tareas de manipulación complejas al tiempo que seguían siendo resistentes a la interferencia humana y a las variaciones ambientales. Se han probado a través de parques y calles de ciudades, por escaleras de emergencia y sobre obstáculos en entornos que nunca habían visto antes, todo sin planificación ni mapeo previos.
Manipulación precisa y fiable
La automatización de tareas del mundo real requiere un alto grado de precisión y fiabilidad. Skild AI mostró la capacidad del cerebro para automatizar varias tareas útiles, como la limpieza de un escritorio de oficina en casa y la inserción de AirPods en sus estuches, una tarea que actualmente llevan a cabo los seres humanos durante miles de horas cada día.
Adaptación extrema
Skild mostró la capacidad del cerebro para adaptarse a escenarios extremos, como la pérdida de una o más extremidades. En este caso, el cerebro utiliza el aprendizaje en contexto e interactúa con el entorno para recuperarse.
Skild AI desarrolla inteligencia de propósito general que se adapta en diferentes plataformas robóticas. La empresa se centra en el escalado para crear un único cerebro centrado en la acción para todas las realizaciones de robots, todas las tareas y todos los escenarios, diseñado de forma única para aplicaciones de IA física.
El trabajo de Skild AI demuestra que el futuro de la robótica no radica en recopilar más datos de robots, sino en aprovechar de forma inteligente las grandes cantidades de simulación y datos de comportamiento humano ya disponibles, procesados a través de sistemas de IA avanzados capaces de adaptación continua al mundo real.
«El aprendizaje por experiencia, y no por preprogramación, es el cambio significativo que ha ocurrido en la robótica. Las tecnologías NVIDIA Isaac Lab y Cosmos nos permiten crear fuentes de datos masivas y escalables necesarias para que los robots aprendan realmente de la experiencia en diversos escenarios y encarnaciones».
Deepak Pathak,
Cofundador y CEO de Skild AI
Explore la plataforma de robótica abierta NVIDIA Isaac para acelerar su desarrollo, simulación, generación de datos sintéticos y marcos de aprendizaje de robots de extremo a extremo que permiten el entrenamiento a una escala sin precedentes.