Robotik und Edge-KI
Skild AI
Skild AI, unterstützt von der beschleunigten Computing-Infrastruktur von NVIDIA, hat eine neuartige Technik zum Trainieren eines Omnikörper-Roboter-Foundation-Modells entwickelt, das sich an neue Roboter-Ausführungsformen anpassen und neue Fähigkeiten ohne oder mit nur minimalem Nachtrainieren erlernen kann. Das Unternehmen nutzt NVIDIA Omniverse™ Bibliotheken und offene Frameworks wie NVIDIA Isaac™ Lab für fortschrittliche Physiksimulation und NVIDIA Cosmos™ für die Datenaugmentation und -generierung, um sein Foundation Model zu trainieren.
Das Wichtigste im Überblick
Seit Jahren hat die Robotik mit demselben hartnäckigen Problem zu kämpfen: Wie entwickelt man Roboter, die tausende Aufgaben in tausenden Umgebungen und mit einer Vielzahl von Morphologien ausführen können? Während die künstliche Intelligenz durch das einfache Rezept großer Datensätze, großer Netzwerke und GPU-Training bemerkenswerte Erfolge in den Bereichen Sprache und Vision erzielt hat, stellt eine zuverlässige physische KI, die Physik und räumliche Beziehungen versteht und die richtigen motorischen Befehle ausgibt, neue Herausforderungen dar.
Im Gegensatz zu Bereichen mit einer Fülle von Internetdaten litt die Robotik unter einer kritischen Datenknappheit. Die Erfassung realer Daten mit physischen Robotern ist langsam und teuer. Der Betrieb von Robotern für die Datenerfassung dauert Minuten, um eine einzige hochwertige Demonstration zu generieren. KI-Systeme benötigen jedoch Milliarden von Trainingsmustern, um effektiv zu sein. Roboter ohne ausreichende Trainingsdaten, um zuverlässig zu funktionieren, können nicht in großem Maßstab eingesetzt werden, um neue Betriebsdaten zu erfassen und komplexere Fähigkeiten zu trainieren. Diese Einschränkung hat dazu geführt, dass die Robotik in beeindruckenden Demonstrationen mit begrenztem Erfolg bei der Bereitstellung in der realen Welt festgehalten wird.
Skild AI hat ein echtes Robotik-Foundation-Modell namens Skild Brain entwickelt. Im Gegensatz zu anderen Robotik-Modellen, die für bestimmte Robotertypen überangepasst sind, ist das Skild Brain universell einsetzbar, was bedeutet, dass es jeden Roboter steuern kann, auch ohne dessen genaue Bauweise zu kennen. Wie ein menschliches Gehirn verfügt es über einen hochrangigen Entscheidungsträger, der bestimmt, was der Roboter tun soll (wie „Heb diese Tasse auf“), und einen untergeordneten Controller, der die präzisen Muskelbewegungen übernimmt, die zur Ausführung dieser Befehle erforderlich sind.
Um die Datenknappheit zu überwinden, nutzt Skild AI zwei alternative Datenquellen: die physikbasierte Generierung synthetischer Daten und menschliche Videos aus dem Internet. Im Gegensatz zur realen teleoperierten Datenerfassung sind diese Quellen fast unbegrenzt skalierbar. Simulationen können skaliert werden, indem sie auf mehr GPUs dupliziert werden, während im Internet ein riesiger, ständig wachsender Datensatz an Videos verfügbar ist.
Der wichtigste Durchbruch des Unternehmens sind Modelle, die sich über kontextbezogenes Lernen anpassen. Durch Analysieren, wenn Aktionen nicht wie erwartet funktionieren, entwickeln die Roboter etwas, das der Intuition ähnelt, und passen ihr Verhalten an verschiedene Umgebungen an. Dies ermöglicht es Robotern, in komplexen Umgebungen dynamisch zu arbeiten, ohne dass für jedes Szenario vorprogrammierte Anweisungen erforderlich sind.
Skild AI nutzt Isaac Lab, um die Simulations-Trainingsszenarien zu entwickeln, die für die Entwicklung von Robotern mit bestärkendem Lernen unter herausfordernden Bedingungen erforderlich sind. Das Unternehmen nutzt Cosmos Transfer, um Trainingsdatensätze mit Umgebungsvariationen zu ergänzen und so den Umfang und die Robustheit der neuronalen Trainingsdaten zu erweitern. Dieser vielseitige Simulationsansatz ermöglicht es Skild AI, Jahrtausende an Erfahrung innerhalb von Tagen zu sammeln, wodurch ein groß angelegtes Robotertraining mit beispielloser Geschwindigkeit möglich wird.
Skild AI hat Simulationen im großen Maßstab mit Tausenden von Roboterinstanzen in mehreren Ausführungsformen erstellt, einschließlich Humanoiden, Quadrupedern und Roboterarmen, die jeweils mit unterschiedlichen Morphologien ausgestattet wurden und in Tausenden von Umgebungen eingesetzt wurden, um die Generalisierung zu maximieren. Dieses Training zur Generierung synthetischer Daten unterstützt ein universell einsetzbares Gehirn und verhindert, dass das KI-Modell Lösungen für bestimmte Hardware-Konfigurationen speichert, und zwingt es stattdessen, kontextbezogene Lernstrategien zu entwickeln, die universell für alle Robotertypen funktionieren.
Die Generierung synthetischer Daten durch fortschrittliche Simulation stellt eine zentrale Säule des Technologie-Stacks von Skild AI dar. Das Unternehmen generiert Milliarden von Trainingsbeispielen durch physikbasierte Simulation, sodass Roboter Ausfallszenarien sicher und umfassend erleben können.
Dies ist unerlässlich, da Roboter im Vergleich zu den begrenzten Möglichkeiten des Erfolgs unzählige Möglichkeiten des Scheiterns haben, was es unmöglich macht, alle Ausfallszenarien mit der herkömmlichen Datenerfassung zu erfassen. Mit Cosmos Transfer ist Skild AI in der Lage, Datensätze über Prompts zu erweitern und zu multiplizieren und verschiedene Umgebungsbedingungen, Lichtszenarien und visuelle Merkmale zu generieren, um die Robustheit des Trainings zu maximieren. Die Simulation ermöglicht es Robotern, Millionen von Ausfällen in verschiedenen Umgebungen sicher zu erleben, bevor sie den richtigen Ansatz beherrschen. Dadurch wird die Robustheit erreicht, die für die reale Bereitstellung erforderlich ist.
Das Modell zeigt eine bemerkenswerte Anpassungsfähigkeit an mechanische Änderungen und erholt sich von blockierten Rädern innerhalb von 2–3 Sekunden und von gebrochenen Beinen nach mehreren Versuchen, ohne dass es zu Ausfällen kommt. Diese Widerstandsfähigkeit erstreckt sich auf Extremszenarien, einschließlich des Gehens auf Stelzen mit erweiterten Bein-Körper-Verhältnissen, die die Trainingsparameter überschreiten, und ist eine Form des Zero-Shot-Lernens, das echte Generalisierungsfunktionen aufweist.
Der zweite wichtige Teil ist das Lernen aus menschlichen Videos. Um die Vielfalt der realen Welt einzufangen, nutzt Skild AI die Billionen von Videos, die online verfügbar sind, die Menschen bei der Ausführung verschiedener Aufgaben auf Plattformen zeigen. Durch die Behandlung von Menschen wie biologische Roboter hat das Unternehmen fortschrittliche Techniken entwickelt, um Affordanzen zu extrahieren. Dies half dem Robotergehirn zu verstehen, wie Objekte durch die Beobachtung menschlicher Interaktionen manipuliert werden sollten.
Die KI-Computing-Infrastruktur von NVIDIA erfüllt die enormen Rechenanforderungen für das Training von Robotik-Foundation-Modellen in mehreren Datenmodalitäten gleichzeitig. Die Bibliotheken und Frameworks für beschleunigtes Computing und Simulation von NVIDIA bilden zusammen die grundlegende Infrastruktur, die es Skild AI ermöglicht, mit kostengünstiger Hardware bahnbrechende Ergebnisse zu erzielen. Sie entwickeln Roboter, die 4.000 bis 15.000 US-Dollar kosten, im Vergleich zu herkömmlichen Robotersystemen, die Investitionen von über 250.000 US-Dollar erfordern.
Skild hat aktuelle Ergebnisse veröffentlicht, die die Fähigkeiten des allumfassenden Gehirns in verschiedenen Szenarien zeigen.
End-to-End-Lokomotion aus Vision
Das Skild Brain ermöglicht eine End-to-End-Bewegungssteuerung, die vollständig durch Online-Sicht und Propriozeption unterstützt wird. Aus Kamera-Rohbildern und Rückmeldungen der Gelenke gibt das Modell direkt motorische Befehle niedriger Ebene aus, sodass humanoide Roboter auf ebenem Boden gehen und hohe Hindernisse erklimmen können. Die Roboter behalten eine bemerkenswerte Agilität, selbst wenn sie Nutzlasten wie Pakete in ihren Händen tragen.
Die humanoiden Roboter von Skild AI wurden in der herausfordernden städtischen Umgebung von Pittsburgh getestet und zeigten praktische Fähigkeiten und erzielten innerhalb von Stunden nach der Datenerfassung eine Leistung von 60–80 %. Die Roboter führten komplexe Manipulationsaufgaben erfolgreich aus und blieben robust gegenüber menschlichen Eingriffen und Umweltschwankungen. Sie wurden in Stadtparks und Straßen, auf Feuertreppen und über Hindernisse in Umgebungen getestet, die sie noch nie gesehen hatten, alles ohne vorherige Planung oder Kartierung.
Präzise, zuverlässige Manipulation
Die Automatisierung realer Aufgaben erfordert ein hohes Maß an Präzision und Zuverlässigkeit. Skild AI zeigte die Fähigkeit des Gehirns, mehrere nützliche Aufgaben zu automatisieren, wie z. B. das Aufräumen des Schreibtisches im Heimbüro und das Einfügen von AirPods in Hüllen – eine Aufgabe, für die Menschen derzeit mehr als tausende Stunden brauchen.
Extreme Anpassung
Skild zeigte die Fähigkeit des Gehirns, sich an extreme Szenarien anzupassen, wie den Verlust einer oder mehrerer Gliedmaßen. In diesem Fall nutzt das Gehirn kontextbezogenes Lernen und interagiert mit der Umgebung, um sich zu erholen.
Skild AI entwickelt universelle Intelligenz, die sich an verschiedene Roboterplattformen anpasst. Das Unternehmen konzentriert sich auf die Skalierung, um ein einziges handlungsorientiertes Gehirn für alle Roboter-Verkörperungen, alle Aufgaben und alle Szenarien zu entwickeln, das speziell für physische KI-Anwendungen entwickelt wurde.
Die Arbeit von Skild AI zeigt, dass die Zukunft der Robotik nicht in der Erfassung von mehr Roboterdaten liegt, sondern in der intelligenten Nutzung der riesigen Mengen an Simulations- und menschlichen Verhaltensdaten, die bereits verfügbar sind, und durch fortschrittliche KI-Systeme verarbeitet werden, die in der Lage sind, sich kontinuierlich an die reale Welt anzupassen.
„Lernen durch Erfahrung anstatt durch Vorprogrammierung ist der entscheidende Wandel, der in der Robotik stattgefunden hat. NVIDIA Isaac Lab- und Cosmos-Technologien ermöglichen es uns, riesige und skalierbare Datenquellen zu entwickeln, die für Roboter erforderlich sind, um wirklich aus Erfahrungen in verschiedenen Szenarien und Ausführungsformen zu lernen.“
Deepak Pathak
Skild AI Mitbegründer und CEO
Entdecken Sie die offene Robotikplattform NVIDIA Isaac, um Ihre End-to-End-Frameworks für die Entwicklung, Simulation, Generierung synthetischer Daten und Roboterlernen zu beschleunigen, die ein Training in beispiellosem Maßstab ermöglichen.