Robotica e IA Edge
Skild AI
Skild AI, basato sull'infrastruttura di calcolo accelerato di NVIDIA, ha sviluppato una tecnica nuova per addestrare un modello di base di robot omniforme in grado di adattarsi alle nuove incarnazioni dei robot e di eseguire nuove competenze con un post-addestramento zero o minimo. L'azienda utilizza le librerie NVIDIA Omniverse™ e i framework aperti come NVIDIA Isaac™ Lab per la simulazione fisica avanzata e NVIDIA Cosmos™ per l'aumento e la generazione di dati per addestrare il modello di fondazione.
Punti chiave
Per anni, la robotica ha lottato con lo stesso problema intrattabile: come creare robot in grado di eseguire migliaia di attività in migliaia di ambienti e in una varietà di morfologie. Mentre l'intelligenza artificiale ha ottenuto un successo notevole nel linguaggio e nella visione attraverso la semplice ricetta di set di dati di grandi dimensioni, grandi reti e addestramento delle GPU, l'IA fisica affidabile, che comprende la fisica e le relazioni spaziali e emette i comandi motori corretti, pone nuove sfide.
A differenza dei domini che presentano abbondanti dati internet, la robotica ha sofferto di una grave carenza di dati. La raccolta di dati nel mondo reale sui robot fisici è lenta e costosa: occorrono minuti per generare una singola dimostrazione di alta qualità, ma i sistemi IA hanno bisogno di miliardi di campioni di addestramento per essere efficaci. I robot senza dati di addestramento sufficienti per eseguire in modo affidabile non possono essere distribuiti su vasta scala per acquisire nuovi dati operativi per addestrare le competenze più complesse. Questa limitazione ha bloccato la robotica in uno stato di dimostrazioni impressionanti con un successo limitato nella distribuzione nel mondo reale.
Skild AI ha creato un vero modello di fondazione robotico chiamato Skild Brain. A differenza di altri modelli di robotica che si adattano a tipologie di robot specifiche, Skild Brain è omni-corporeo, il che significa che può controllare qualsiasi robot, anche senza conoscerne il corpo esatto. Come il cervello umano, ha un decisore di alto livello che determina cosa deve fare il robot (come "raccogliere quella tazza") e un controllore di basso livello che gestisce i movimenti muscolari precisi necessari per eseguire tali comandi.
Per superare la carenza di dati, Skild AI sfrutta due fonti di dati alternative: la generazione di dati sintetici basati sulla fisica e i video umani provenienti da Internet. A differenza della raccolta di dati teleoperata del mondo reale, queste fonti sono scalabili quasi all'infinito. Le simulazioni possono essere scalate duplicandole su più GPU, mentre c'è un enorme set di dati di video in costante crescita disponibile su Internet.
La principale innovazione dell'azienda sono i modelli che si adattano tramite l'apprendimento in contesto. Analizzando quando le azioni non funzionano come previsto, i robot sviluppano qualcosa di simile all'intuizione, regolando il comportamento in base ai diversi ambienti. Ciò consente ai robot di operare dinamicamente in ambienti complessi, senza richiedere istruzioni precedentemente programmate per ogni scenario.
Skild AI utilizza Isaac Lab per creare gli scenari di addestramento mediante simulazione necessari per lo sviluppo dell'apprendimento per rinforzo dei robot in condizioni difficili. L'azienda sfrutta Cosmos Transfer per aumentare i set di dati di addestramento con le variazioni ambientali, espandendo l'ambito e la robustezza dei dati di addestramento neurale. Questo approccio di simulazione multiforme consente a Skild AI di acquisire un millennio di esperienza in pochi giorni, rendendo possibile l'addestramento robotico su larga scala a una velocità senza precedenti.
Skild AI ha creato simulazioni su vasta scala con migliaia di istanze di robot in più forme, tra cui umanoidi, quadrupedi e bracci robotici, ognuna con morfologie distinte e distribuita in migliaia di ambienti per massimizzare la generalizzazione. Questo addestramento per la generazione di dati sintetici alimenta un cervello omnibody, impedendo al modello IA di memorizzare soluzioni per configurazioni hardware specifiche e costringendolo invece a sviluppare strategie di apprendimento in contesto che funzionano universalmente per tutti i tipi di robot.
La generazione di dati sintetici attraverso la simulazione avanzata rappresenta un pilastro fondamentale dello stack tecnologico di Skild AI. L'azienda genera miliardi di esempi di addestramento attraverso la simulazione basata sulla fisica, consentendo ai robot di sperimentare scenari di guasto in modo sicuro e completo.
Ciò è essenziale perché i robot hanno innumerevoli modi per fallire rispetto ai modi limitati in cui possono avere successo, il che rende impossibile acquisire tutti gli scenari di fallimento attraverso la raccolta di dati tradizionale. Con Cosmos Transfer, Skild AI è in grado di aumentare e moltiplicare i set di dati tramite prompt di testo, generando varie condizioni ambientali, scenari di illuminazione e funzionalità visive per massimizzare la robustezza dell'addestramento. La simulazione consente ai robot di sperimentare milioni di guasti in ambienti diversi in modo sicuro prima di padroneggiare l'approccio corretto, ottenendo la robustezza necessaria per la distribuzione nel mondo reale.
Il modello dimostra una notevole adattabilità ai cambiamenti meccanici, recuperando dalle ruote inceppate in 2-3 secondi e dalle gambe rotte dopo diversi tentativi anziché subire un fallimento. Questa resilienza si estende a scenari estremi, tra cui il camminare su palafitti con rapporti gambe-corpo estesi che superano i parametri di addestramento, ed è una forma di apprendimento zero-shot che mostra vere capacità di generalizzazione.
La seconda parte chiave è l'apprendimento dai video umani. Per catturare la diversità del mondo reale, Skild AI sfrutta i trilioni di video disponibili online che mostrano gli esseri umani che eseguono varie attività sulle piattaforme. Trattando gli esseri umani come robot biologici, l'azienda ha sviluppato tecniche avanzate per estrarre affordance, aiutando il cervello del robot a comprendere come gli oggetti dovrebbero essere manipolati osservando le interazioni umane.
L'infrastruttura di calcolo IA di NVIDIA soddisfa gli enormi requisiti computazionali per l'addestramento di modelli fondamentali della robotica in più modalità di dati simultaneamente. Insieme, le librerie e i framework di calcolo e simulazione accelerati di NVIDIA creano l'infrastruttura di base che consente a Skild AI di ottenere risultati rivoluzionari con un hardware conveniente, sviluppando robot che costano 4.000-15.000 dollari rispetto ai sistemi robotici tradizionali che richiedono investimenti di oltre 250.000 dollari.
Skild ha pubblicato risultati recenti che mostrano le funzionalità del cervello omni-corporeo in vari scenari.
Locomozione end-to-end dalla visione
Il cervello Skild consente il controllo completo della locomozione basato interamente sulla visione e sulla propriocezione in tempo reale. Dalle immagini non elaborate della telecamera e dal feedback articolare, il modello emette direttamente comandi motori di basso livello, consentendo ai robot umanoidi di camminare su terreni pianeggianti e superare ostacoli alti. I robot mantengono una notevole agilità anche mentre trasportano carichi, come i pacchi, nelle loro mani.
Durante i test nell'ambiente urbano impegnativo di Pittsburgh, i robot umanoidi di Skild AI hanno dimostrato capacità pratiche, ottenendo prestazioni delle attività del 60%-80% entro poche ore dalla raccolta dei dati. I robot hanno eseguito con successo complesse attività di manipolazione, rimanendo resistenti alle interferenze umane e alle variazioni ambientali. Sono stati testati nei parchi e nelle strade cittadine, sulle scale antincendio e sugli ostacoli in ambienti mai visti prima, il tutto senza pianificazione o mappatura preventiva.
Manipolazione precisa e affidabile
L'automazione delle attività del mondo reale richiede un alto grado di precisione e affidabilità. Skild AI ha mostrato la capacità del cervello di automatizzare diverse attività utili, come la pulizia della scrivania di un ufficio a casa e l'inserimento degli AirPods nelle custodie, un'attività attualmente eseguita dagli esseri umani per migliaia di ore al giorno.
Adattamento estremo
Skild ha mostrato la capacità del cervello di adattarsi a scenari estremi, come la perdita di uno o più arti. In questo caso, il cervello utilizza l'apprendimento in contesto e interagisce con l'ambiente per recuperare.
Skild AI sta sviluppando l'intelligenza per uso generale adattabile a diverse piattaforme robotiche. L'azienda si concentra sulla scalabilità per creare un singolo cervello incentrato sulle azioni per tutte le realizzazioni robot, tutte le attività e tutti gli scenari, progettato unicamente per le applicazioni di IA fisica.
Il lavoro di Skild AI dimostra che il futuro della robotica non sta nella raccolta di più dati robot, ma nel sfruttare in modo intelligente le vaste quantità di dati di simulazione e comportamentali umani già disponibili, elaborati attraverso sistemi IA avanzati in grado di adattarsi continuamente al mondo reale.
"L'apprendimento per esperienza, e non la pre-programmazione, è il cambiamento radicale avvenuto nella robotica. Le tecnologie NVIDIA Isaac Lab e Cosmos ci consentono di creare fonti di dati enormi e scalabili necessarie ai robot per imparare veramente dall'esperienza in diversi scenari e realizzazioni".
Deepak Pathak
Skild AI Cofondatore e CEO
Scopri la piattaforma di robotica aperta NVIDIA Isaac per accelerare lo sviluppo end-to-end della robotica, la simulazione, la generazione di dati sintetici e i framework di apprendimento dei robot che consentono l'addestramento su una scala senza precedenti.