Physische KI

NVIDIA Cosmos

Entwickeln Sie World-Foundation-Modelle für physische KI.

Überblick

Was ist NVIDIA Cosmos?

NVIDIA Cosmos™ ist eine Plattform mit generativen World-Foundation-Modellen (WFMs) auf dem neuesten Stand der Technik, fortgeschrittenen Tokenizern, Sicherheitsmechanismen und einer beschleunigten Datenverarbeitungs- und Datenaufbereitungspipeline. Sie wurde entwickelt, um das Training von Weltmodellen zu unterstützen und die Entwicklung physischer KI für autonome Fahrzeuge und Roboter zu beschleunigen.

NVIDIA unterstützt humanoide Robotik mit Cloud-to-Robot-Computing-Plattformen

Neue offene NVIDIA Isaac™ GR00T Modelle und GR00T-Dreams-Blueprint für die Generierung synthetischer Daten verbessern das Reasoning und das Verhalten von humanoiden Robotern.

Skalierung synthetischer Daten und Reasoning für physische KI mit NVIDIA Cosmos

Informieren Sie sich über die neuesten NVIDIA Cosmos WFMs für fortgeschrittenes Reasoning und kontrollierbare Generierung synthetischer Daten für die nächste Generation KI-gesteuerter Humanoiden und autonomer Fahrzeuge.

Vorteile

Beschleunigen Sie die Generierung virtueller Welten für physische KI

Cosmos bietet Entwicklern einfachen Zugriff auf leistungsstarke Foundation-Modelle, Datenpipelines und Tools zur Generierung synthetischer Daten und zum Nachtrainieren für Robotik- und autonome Fahranwendungen.

Auf physikalischen Gegebenheiten basierende Daten

World-Foundation-Modelle sind mit 20 Millionen Stunden an Robotik- und Fahrdaten vortrainiert, um Weltzustände zu generieren, die auf physikalischen Prinzipien basieren.

Offen

Cosmos-WFMs, Sicherheitsmechanismen („Guardrails“) und Tokenizer werden im Rahmen der NVIDIA Open-Model-Lizenz lizenziert, was allen Entwicklern physischer KI Zugang bietet.

Modelle

Cosmos World Foundation-Modelle

Eine Reihe vortrainierter multimodaler Modelle, die Entwickler direkt für die Weltgenerierung und für Reasoning nutzen oder nachtrainieren können, um spezialisierte physische KI-Modelle zu entwickeln.

Cosmos Predict

Generisches Modell für überlegene und schnellere Weltengenerierung und Frame-Vorhersage aus multimodalen Eingaben. Mit 9.000 Billionen Token an Robotik- und Fahrdaten trainiert und speziell für das Nachtrainieren entwickelt.

Verfügbar als Cosmos NIM für beschleunigte Inferenz überall.

Cosmos Transfer

Verstärken Sie Eingabevideos für eine Vielzahl von Umgebungen und Lichtverhältnissen zur Weltgenerierung unter Berücksichtigung physikalischer Prinzipien – basierend auf Ground-Truth-Daten und strukturierten Eingaben. Beschleunigen Sie die steuerbare Generierung synthetischer Daten, indem Sie eine Ground-Truth-Simulation von NVIDIA Omniverse™ verwenden.

Cosmos Reason

Vollständig anpassbares, multimodales Reasoning-Modell für die Planung von Reaktionen auf der Grundlage von räumlichem und zeitlichem Verständnis. 

Trainiert mittels Nachtraining für Visual-Language-Modelle und bestärkendem Lernen für Reasoning mit Gedankenketten.

Cosmos Guardrail

Entwickeln Sie verantwortungsvolle Modelle mit Cosmos WFM mit Pre-Guard zur Filterung unsicherer Eingaben und Post-Guard für konsistente und sichere Ergebnisse.

Tools

Nachtrainieren von Cosmos World Foundation-Modelle

Cosmos bietet Entwicklern offene und leistungsstarke Pipelines für die Datenaufbereitung, Tokenizer, ein Trainings-Framework und Skripte für das Nachtraining, mit denen schnell und einfach spezialisierte Weltmodelle wie Richtlinienmodelle und VLA-Modelle (Visual Language Action) für verkörperte KI (Embodied AI) erstellt werden können.

Effiziente Tokenisierung von Videodaten

Nutzen Sie Cosmos-Tokenizer, um Bild- oder Video-Token mit einer höheren Kompressionsrate zu generieren – für die skalierbare, robuste und effiziente Entwicklung großer Weltmodelle. Wählen Sie hochaufgelöste oder niedrig aufgelöste Varianten für das Nachtrainieren von Cosmos-WFMs in spezialisierte KI-Modelle.

Beschleunigung der Datenkuration

Beschleunigen Sie die Datenkuration um das 20-Fache mit der NVIDIA NeMo™ Curator-Pipeline mit CUDA-X™ und NVIDIA-AI-beschleunigten Tools für die Verarbeitung von mehr als 100 PB Daten. Sie bietet sofortige Optimierungen, minimiert die Gesamtbetriebskosten (TCO) und verkürzt die Markteinführungszeit.

Vollständig verwalteter Entwicklungssupport

NVIDIA DGX Cloud ist eine leistungsstarke KI-Plattform für beschleunigtes Training, mit der Entwickler Daten kuratieren, nachtrainieren und Video- und World-Foundation-Modelle mit einem vollständig verwalteten Service bereitstellen können.

Skript für das Nachtraining

Passen Sie Cosmos WFMs für Anwendungsfälle nachgelagerter physischer KI mithilfe von PyTorch-Scripts an. Trainieren Sie Modelle nach, um Aktionen oder Text zu generieren oder Länge, Präzision, Ansicht und Kamerasteuerungen zu ändern, um sie an reale Szenarien und Anforderungen anzupassen.

Anwendungsfälle

Wie Entwickler NVIDIA Cosmos nutzen

Entwickler trainieren Cosmos-WFMs nach oder arbeiten mit NVIDIA Omniverse, um sie für nachgelagerte Anwendungsfälle mit physischer KI einzusetzen.

Generierung synthetischer Daten (SDG)

Omniverse erstellt realistische 3D-Szenen, die als Eingabe für Cosmos Transfer verwendet werden können, um sie in verschiedenen, fotorealistischen Umgebungen und Beleuchtungen zu erweitern. Dieser Prozess generiert skalierbare, erweiterte Daten, wodurch der Datenengpass für ein effektiveres Foundation-Model-Training beseitigt wird.

Cosmos Reason kann synthetische Daten bewerten, indem Ergebnisse entfernt werden, die die Nachtrainings- oder Bewertungsanforderungen nicht erfüllen. Es generiert auch Untertitel, um Kontext hinzuzufügen und Daten zu organisieren, wodurch die Foundation-Model-Entwicklung für Vision-KI und verkörperte KI beschleunigt wird.

Initialisierung von Richtlinienmodellen

Ein Richtlinien-Modell steuert das Verhalten eines physischen KI-Systems und stellt sicher, dass das System sicher und im Einklang mit seinen Zielen arbeitet. Cosmos Predict oder Cosmos Reason können zu Richtlinien-Modellen für das Erzeugen von Aktionen nachtrainiert werden. So sparen Sie den Kosten-, Zeit- und Datenaufwand für manuelles Trainieren von Richtlinien.

Bewertung von Richtlinienmodellen

Cosmos-WFMs beschleunigen die Richtlinienbewertung durch die Simulation realer Handlungen in Videoausgaben und nutzen die Ground-Truth-Physik von Omniverse für Genauigkeit. Entwickler können mit Cosmos Reason ein VLA-Modell (Vision-Language-Action) erstellen und es hinzufügen, um Aktionen kritisch zu bewerten und auszulösen. Diese Simulationsschleife reduziert Kosten, Zeit und Risiken von realen Tests und verbessert gleichzeitig die Genauigkeit von Richtlinien.

Multiview-Generierung

Cosmos Predict kann nachtrainiert werden, um mehrere Ansichten oder verschiedene Kameraperspektiven zu generieren, was hochgenaue, zeitlich konsistente, physikbasierte Trainingsdaten ermöglicht, die bis zu 360°-Ansichten eines einzelnen Textes, Bildes oder Videos enthalten.

Dies erhöht die Robustheit der Modelle, reduziert Randfall-Ausfälle und beschleunigt die Entwicklungszyklen für autonome Maschinen, wodurch die Kosten gesenkt und schnellere, sicherere Bereitstellungen ermöglicht werden.

Unser Engagement

Förderung des breiten Zugangs zu vertrauenswürdiger KI für die Community der physischen KI

Cosmos-Modelle, Sicherheitsmechanismen und Tokenizer sind auf Hugging Face und GitHub verfügbar, zusammen mit Ressourcen, die dazu dienen, die Datenknappheit beim Trainieren physischer KI-Modelle zu beheben. Wir möchten die Nutzung von Cosmos forcieren – transparent, offen und für alle entwickelt.

Technologieumfeld

Übernommen von führenden Innovatoren auf dem Gebiet der physischen KI

Modellentwickler aus den Bereichen Robotik, autonome Fahrzeuge und Visuelle KI nutzen Cosmos für die beschleunigte Entwicklung physischer KI.

Nächste Schritte

Sind Sie bereit?

Testen Sie ein World-Foundation-Modell im NVIDIA-API-Katalog oder beginnen Sie mit der Entwicklung Ihrer Weltmodelle mit NVIDIA Cosmos.

Post-Train-WFMs

Cosmos WFMs sind speziell für das Nachtraining entwickelt und ermöglichen leistungsstarke Downstream-Weltmodelle, die die Entwicklung physischer KI beschleunigen.

Kuratieren von Videodaten für Weltmodelle

Nutzen Sie eine beschleunigte Datenverarbeitungs- und Datenaufbereitungspipeline, die auf NVIDIA NeMo Curator basiert und für NVIDIA Rechenzentrum-GPUs optimiert ist.

Häufig gestellte Fragen

Entwickler physischer KI können jetzt mit Cosmos World Foundation Models beginnen, die auf Hugging Face und GitHub verfügbar sind. Cosmos bietet auch eine End-to-End-Pipeline zur Feinabstimmung der Foundation-Modelle mit NVIDIA NeMo. Entwickler können Cosmos-Tokenizer von  /NVIDIA/cosmos-tokenizer auf GitHub und Hugging Face nutzen.

Cosmos World Foundation Models sind im Rahmen einer NVIDIA Open-Model-Lizenz für alle zugänglich.

PyTorch-Skripte sind für alle Cosmos-Modelle für das Nachtraining frei verfügbar. Bitte lesen Sie die Dokumentation, um eine Schritt-für-Schritt-Anleitung für das Nachtraining zu erhalten.

Ja, Sie können Cosmos verwenden, um mit Ihrem bevorzugten Foundation Model oder Ihrer Modellarchitektur Modelle von Grund auf neu zu erstellen. Sie können zunächst NeMo Curator für die Vorverarbeitung von Videodaten verwenden. Anschließend komprimieren und dekodieren Sie Ihre Daten mit Cosmos Tokenizer. Sobald Sie die Daten verarbeitet haben, können Sie Ihr Modell mit NVIDIA NeMo trainieren oder optimieren.

Mit NVIDIA NIM™ Microservices können Sie Ihre physischen KI-Modelle einfach in Ihre Anwendungen integrieren, die sich über Cloud, Rechenzentren und Workstations erstrecken.

Sie können NVIDIA DGX Cloud auch nutzen, um KI-Modelle zu trainieren und sie in großem Umfang überall bereitzustellen.

Omniverse erstellt mit verschiedenen generativen APIs, SDKs und NVIDIA RTX-Rendering-Technik realistische 3D-Simulationen von Aufgaben in der Praxis.

Entwickler können Omniverse-Simulationen als Instruktionsvideos in Cosmos Transfer-Modelle eingeben, um steuerbare fotorealistische synthetische Daten zu generieren.

Omniverse stellt die Simulationsumgebung vor und nach dem Training bereit, während Cosmos die Foundation-Modelle für die Generierung von Videodaten und das Trainieren physischer KI-Modelle zur Verfügung stellt.

Erfahren Sie mehr über NVIDIA Omniverse.