Physische KI
Entwickeln Sie World-Foundation-Modelle für physische KI.
Überblick
NVIDIA Cosmos™ ist eine Plattform mit generativen World-Foundation-Modellen (WFMs) auf dem neuesten Stand der Technik, fortgeschrittenen Tokenizern, Sicherheitsmechanismen und einer beschleunigten Datenverarbeitungs- und Datenaufbereitungspipeline. Sie wurde entwickelt, um das Training von Weltmodellen zu unterstützen und die Entwicklung physischer KI für autonome Fahrzeuge und Roboter zu beschleunigen.
Offene Modelle
Vortrainierte multimodale generative Modelle, die Entwickler sofort für die Weltgenerierung oder das Reasoning einsetzen können. Über weiteres Post-Training können daraus auch spezialisierte physische KI-Modelle entwickelt werden.
Ein hochmodernes Modell zur Vorhersage des Weltzustands, das aus multimodalen Eingaben bis zu 30 Sekunden fortlaufendes Videomaterial mit überragender Geschwindigkeit, Genauigkeit und Prompt-Einhaltung erzeugt.
Multicontrol-Modell für die schnelle Skalierung einer einzelnen Simulation oder eines räumlichen Videos in verschiedenen Umgebungen mit unterschiedlichen Lichtverhältnissen.
Beschleunigen Sie 3D-Eingaben aus physischen KI-Simulationsframeworks, wie CARLA oder NVIDIA Isaac Sim™, um eine vollständig steuerbare Datenaugmentation und synthetische Datengenerierungs- Pipelines zu ermöglichen.
Vollständig anpassbares, Reasoning-VLM (Vision Language Model), das sich dadurch auszeichnet, dass es die physische Welt wie ein Mensch versteht, indem es strukturiertes Denken auf Videos und Bilder anwendet.
Entwickelt, um KI-Agenten für Videoanalysen zur Laufzeit mit räumlich-zeitlichem Verständnis städtischer und industrieller Operationen zu versorgen, Trainingsdaten für Robotik und autonome Fahrzeuge (AV) zu kuratieren und Roboterentscheidungen zu treffen.
NVIDIA Cosmos Curator ist ein Framework, mit dem Entwickler schnell die für die Entwicklung physischer KI benötigten umfangreichen Sensordaten filtern, annotieren und deduplizieren können, um maßgeschneiderte Datensätze zu erstellen, die den Modellanforderungen entsprechen.
Beschleunigen Sie die effiziente Verarbeitung und Erzeugung von Datensätzen.
Anwendungsfälle
Nutzen Sie die Cosmos-World-Foundation-Modelle, um Daten für nachgelagerte Pipelines in den Bereichen Robotik, autonome Fahrzeuge und industrielle Bildverarbeitungssysteme zu simulieren, zu analysieren und zu generieren.
Roboter benötigen umfangreiche, vielfältige Trainingsdaten, um ihre Umgebung effektiv wahrzunehmen und damit zu interagieren. Mit Cosmos-WFMs generieren Entwickler steuerbare, hochgradig präzise synthetische Daten, um Wahrnehmungs- und Richtlinienmodelle für Roboter zu trainieren.
Vielfältige, hochgradig präzise Sensordaten sind entscheidend für das Sicherheitstraining sowie das Testen und Validieren autonomer Fahrzeuge. Mit nachträglich anhand von Fahrzeugdaten trainierten Cosmos-WFMs können Entwickler die vorhandene Datenvielfalt durch neue Wetter-, Beleuchtungs- und Geolokalisierungsdaten erweitern oder auf Multisensoransichten ausweiten und so erhebliche Zeit- und Kosteneinsparungen erzielen.
Diese KI-Agenten können Echtzeit- oder aufgezeichnete Videostreams analysieren und zusammenfassen sowie damit interagieren, um die Automatisierung, Sicherheit und betriebliche Effizienz in industriellen und urbanen Umgebungen zu verbessern.
Cosmos Reason ist ein anpassbares Reasoning-VLM (Vision Language Model), das KI-Agenten für Videoanalysen mit erweitertem visuellem Verständnis und räumlich-zeitlichen Schlussfolgerungen der physischen Welt versorgt. Diese KI-Agenten bieten die Beantwortung von Fragen in Echtzeit, schnelle Warnmeldungen und umfassende kontextbezogene Erkenntnisse, die intelligentere und reaktionsschnellere Systeme in Edge- und Cloud-Bereitstellungen unterstützen.
Vertrauenswürdige KI
Cosmos-Modelle, -Guardrails und -Tokenizer sind auf Hugging Face und GitHub verfügbar und bieten Ressourcen, um der Datenknappheit beim Training physischer KI-Modelle zu begegnen.
KI-Infrastruktur
Server der NVIDIA RTX PRO 6000 Blackwell-Serie beschleunigen die Entwicklung physischer KI für Roboter, autonome Fahrzeuge und KI-Agenten während des Trainings, der Generierung synthetischer Daten, der Simulation und der Inferenz.
Auf NVIDIA Blackwell GB200 erzielen Sie für Cosmos-World-Foundation-Modelle die Spitzenleistung für industrielle Post-Trainings- und Inferenz-Workloads.
Technologieumfeld
Modellentwickler aus den Bereichen Robotik, autonome Fahrzeuge und Computer Vision KI nutzen Cosmos, um die Entwicklung physischer KI zu beschleunigen.
Ressourcen
Beginnen Sie mit der Dokumentation. Cosmos-Welt-Foundation-Modelle sind auf Hugging Face mit Inferenz- und Nachtrainingsskripten auf GitHub frei verfügbar. Entwickler können zudem den Cosmos-Tokenizer über /NVIDIA/cosmos-tokenizer auf GitHub und Hugging Face nutzen.
Cosmos World Foundation Models sind im Rahmen einer NVIDIA Open-Model-Lizenz für alle zugänglich.
PyTorch-Skripte sind für alle Cosmos-Modelle für das Nachtraining frei verfügbar. Bitte lesen Sie die Dokumentation, um eine Schritt-für-Schritt-Anleitung für das Nachtraining zu erhalten.
Ja, Sie können Cosmos verwenden, um mit Ihrem bevorzugten Foundation Model oder Ihrer Modellarchitektur Modelle von Grund auf neu zu erstellen. Sie können zunächst NeMo Curator für die Vorverarbeitung von Videodaten verwenden. Anschließend komprimieren und dekodieren Sie Ihre Daten mit Cosmos Tokenizer. Sobald Sie die Daten verarbeitet haben, können Sie Ihr Modell mit NVIDIA NeMo trainieren oder optimieren.
Mit NVIDIA NIM™ Microservices können Sie Ihre physischen KI-Modelle einfach in Ihre Anwendungen integrieren, die sich über Cloud, Rechenzentren und Workstations erstrecken.
Sie können NVIDIA DGX Cloud auch nutzen, um KI-Modelle zu trainieren und sie in großem Umfang überall bereitzustellen.
Alle drei sind WFMs mit verschiedenen Rollen:
Cosmos Reason kann aus einem Startvideo neue und vielfältige Text-Prompts für Cosmos Predict generieren oder synthetische Daten aus Predict und Transfer rezensieren und annotieren.
Omniverse erstellt mit verschiedenen generativen APIs, SDKs und NVIDIA RTX-Rendering-Technik realistische 3D-Simulationen von Aufgaben in der Praxis.
Entwickler können Omniverse-Simulationen als Instruktionsvideos in Cosmos Transfer-Modelle eingeben, um steuerbare fotorealistische synthetische Daten zu generieren.
Omniverse stellt die Simulationsumgebung vor und nach dem Training bereit, während Cosmos die Foundation-Modelle für die Generierung von Videodaten und das Trainieren physischer KI-Modelle zur Verfügung stellt.
Erfahren Sie mehr über NVIDIA Omniverse.