Physische KI
Entwickeln Sie World-Foundation-Modelle für physische KI.
Überblick
NVIDIA Cosmos™ ist eine Plattform mit generativen World-Foundation-Modellen (WFMs) auf dem neuesten Stand der Technik, fortgeschrittenen Tokenizern, Sicherheitsmechanismen und einer beschleunigten Datenverarbeitungs- und Datenaufbereitungspipeline. Sie wurde entwickelt, um das Training von Weltmodellen zu unterstützen und die Entwicklung physischer KI für autonome Fahrzeuge und Roboter zu beschleunigen.
Cosmos bietet Entwicklern einfachen Zugriff auf leistungsstarke Foundation-Modelle, Datenpipelines und Tools zur Generierung synthetischer Daten und zum Nachtrainieren für Robotik- und autonome Fahranwendungen.
World-Foundation-Modelle sind mit 20 Millionen Stunden an Robotik- und Fahrdaten vortrainiert, um Weltzustände zu generieren, die auf physikalischen Prinzipien basieren.
Cosmos-WFMs, Sicherheitsmechanismen („Guardrails“) und Tokenizer werden im Rahmen der NVIDIA Open-Model-Lizenz lizenziert, was allen Entwicklern physischer KI Zugang bietet.
Modelle
Eine Reihe vortrainierter multimodaler Modelle, die Entwickler direkt für die Weltgenerierung und für Reasoning nutzen oder nachtrainieren können, um spezialisierte physische KI-Modelle zu entwickeln.
Generisches Modell für überlegene und schnellere Weltengenerierung und Frame-Vorhersage aus multimodalen Eingaben. Mit 9.000 Billionen Token an Robotik- und Fahrdaten trainiert und speziell für das Nachtrainieren entwickelt.
Verfügbar als Cosmos NIM für beschleunigte Inferenz überall.
Verstärken Sie Eingabevideos für eine Vielzahl von Umgebungen und Lichtverhältnissen zur Weltgenerierung unter Berücksichtigung physikalischer Prinzipien – basierend auf Ground-Truth-Daten und strukturierten Eingaben. Beschleunigen Sie die steuerbare Generierung synthetischer Daten, indem Sie eine Ground-Truth-Simulation von NVIDIA Omniverse™ verwenden.
Vollständig anpassbares, multimodales Reasoning-Modell für die Planung von Reaktionen auf der Grundlage von räumlichem und zeitlichem Verständnis.
Trainiert mittels Nachtraining für Visual-Language-Modelle und bestärkendem Lernen für Reasoning mit Gedankenketten.
Entwickeln Sie verantwortungsvolle Modelle mit Cosmos WFM mit Pre-Guard zur Filterung unsicherer Eingaben und Post-Guard für konsistente und sichere Ergebnisse.
Cosmos bietet Entwicklern offene und leistungsstarke Pipelines für die Datenaufbereitung, Tokenizer, ein Trainings-Framework und Skripte für das Nachtraining, mit denen schnell und einfach spezialisierte Weltmodelle wie Richtlinienmodelle und VLA-Modelle (Visual Language Action) für verkörperte KI (Embodied AI) erstellt werden können.
Entwickler trainieren Cosmos-WFMs nach oder arbeiten mit NVIDIA Omniverse, um sie für nachgelagerte Anwendungsfälle mit physischer KI einzusetzen.
Omniverse erstellt realistische 3D-Szenen, die als Eingabe für Cosmos Transfer verwendet werden können, um sie in verschiedenen, fotorealistischen Umgebungen und Beleuchtungen zu erweitern. Dieser Prozess generiert skalierbare, erweiterte Daten, wodurch der Datenengpass für ein effektiveres Foundation-Model-Training beseitigt wird.
Cosmos Reason kann synthetische Daten bewerten, indem Ergebnisse entfernt werden, die die Nachtrainings- oder Bewertungsanforderungen nicht erfüllen. Es generiert auch Untertitel, um Kontext hinzuzufügen und Daten zu organisieren, wodurch die Foundation-Model-Entwicklung für Vision-KI und verkörperte KI beschleunigt wird.
Ein Richtlinien-Modell steuert das Verhalten eines physischen KI-Systems und stellt sicher, dass das System sicher und im Einklang mit seinen Zielen arbeitet. Cosmos Predict oder Cosmos Reason können zu Richtlinien-Modellen für das Erzeugen von Aktionen nachtrainiert werden. So sparen Sie den Kosten-, Zeit- und Datenaufwand für manuelles Trainieren von Richtlinien.
Cosmos-WFMs beschleunigen die Richtlinienbewertung durch die Simulation realer Handlungen in Videoausgaben und nutzen die Ground-Truth-Physik von Omniverse für Genauigkeit. Entwickler können mit Cosmos Reason ein VLA-Modell (Vision-Language-Action) erstellen und es hinzufügen, um Aktionen kritisch zu bewerten und auszulösen. Diese Simulationsschleife reduziert Kosten, Zeit und Risiken von realen Tests und verbessert gleichzeitig die Genauigkeit von Richtlinien.
Cosmos Predict kann nachtrainiert werden, um mehrere Ansichten oder verschiedene Kameraperspektiven zu generieren, was hochgenaue, zeitlich konsistente, physikbasierte Trainingsdaten ermöglicht, die bis zu 360°-Ansichten eines einzelnen Textes, Bildes oder Videos enthalten.
Dies erhöht die Robustheit der Modelle, reduziert Randfall-Ausfälle und beschleunigt die Entwicklungszyklen für autonome Maschinen, wodurch die Kosten gesenkt und schnellere, sicherere Bereitstellungen ermöglicht werden.
Cosmos-Modelle, Sicherheitsmechanismen und Tokenizer sind auf Hugging Face und GitHub verfügbar, zusammen mit Ressourcen, die dazu dienen, die Datenknappheit beim Trainieren physischer KI-Modelle zu beheben. Wir möchten die Nutzung von Cosmos forcieren – transparent, offen und für alle entwickelt.
Modellentwickler aus den Bereichen Robotik, autonome Fahrzeuge und Visuelle KI nutzen Cosmos für die beschleunigte Entwicklung physischer KI.
Entwickler physischer KI können jetzt mit Cosmos World Foundation Models beginnen, die auf Hugging Face und GitHub verfügbar sind. Cosmos bietet auch eine End-to-End-Pipeline zur Feinabstimmung der Foundation-Modelle mit NVIDIA NeMo. Entwickler können Cosmos-Tokenizer von /NVIDIA/cosmos-tokenizer auf GitHub und Hugging Face nutzen.
Cosmos World Foundation Models sind im Rahmen einer NVIDIA Open-Model-Lizenz für alle zugänglich.
PyTorch-Skripte sind für alle Cosmos-Modelle für das Nachtraining frei verfügbar. Bitte lesen Sie die Dokumentation, um eine Schritt-für-Schritt-Anleitung für das Nachtraining zu erhalten.
Ja, Sie können Cosmos verwenden, um mit Ihrem bevorzugten Foundation Model oder Ihrer Modellarchitektur Modelle von Grund auf neu zu erstellen. Sie können zunächst NeMo Curator für die Vorverarbeitung von Videodaten verwenden. Anschließend komprimieren und dekodieren Sie Ihre Daten mit Cosmos Tokenizer. Sobald Sie die Daten verarbeitet haben, können Sie Ihr Modell mit NVIDIA NeMo trainieren oder optimieren.
Mit NVIDIA NIM™ Microservices können Sie Ihre physischen KI-Modelle einfach in Ihre Anwendungen integrieren, die sich über Cloud, Rechenzentren und Workstations erstrecken.
Sie können NVIDIA DGX Cloud auch nutzen, um KI-Modelle zu trainieren und sie in großem Umfang überall bereitzustellen.
Omniverse erstellt mit verschiedenen generativen APIs, SDKs und NVIDIA RTX-Rendering-Technik realistische 3D-Simulationen von Aufgaben in der Praxis.
Entwickler können Omniverse-Simulationen als Instruktionsvideos in Cosmos Transfer-Modelle eingeben, um steuerbare fotorealistische synthetische Daten zu generieren.
Omniverse stellt die Simulationsumgebung vor und nach dem Training bereit, während Cosmos die Foundation-Modelle für die Generierung von Videodaten und das Trainieren physischer KI-Modelle zur Verfügung stellt.
Erfahren Sie mehr über NVIDIA Omniverse.