Physische KI

NVIDIA Cosmos

Entwickeln Sie World-Foundation-Modelle für physische KI.

Überblick

Was ist NVIDIA Cosmos?

NVIDIA Cosmos™ ist eine Plattform mit generativen World-Foundation-Modellen (WFMs) auf dem neuesten Stand der Technik, fortgeschrittenen Tokenizern, Sicherheitsmechanismen und einer beschleunigten Datenverarbeitungs- und Datenaufbereitungspipeline. Sie wurde entwickelt, um das Training von Weltmodellen zu unterstützen und die Entwicklung physischer KI für autonome Fahrzeuge und Roboter zu beschleunigen.

NVIDIA öffnet mit neuen physischen Cosmos-KI-Modellen die Portale in die Welt der Robotik

Erfahren Sie, wie neue Versionen der NVIDIA Cosmos-Modelle wie Cosmos Transfer und Cosmos Reason die Weltgenerierung und das Verständnis für autonome Fahrzeuge, Roboter und KI-Agenten für Videoanalysen erleichtern.

Branchenpioniere erstellen intelligentere KI-Agenten mit NVIDIA Nemotron- und Cosmos-Reasoning-Modellen

Offene Reasoning-Modelle ermöglichen schnelleres und erweitertes Denken für das Generieren intelligenterer Ergebnisse für KI-Agenten im Kundenservice, die Fertigung, Logistik und Robotik.

Offene Modelle

Cosmos-Modelle für physische KI

Vortrainierte multimodale generative Modelle, die Entwickler sofort für die Weltgenerierung oder das Reasoning einsetzen können. Über weiteres Post-Training können daraus auch spezialisierte physische KI-Modelle entwickelt werden.

Cosmos Predict

Ein hochmodernes Modell zur Vorhersage des Weltzustands, das aus multimodalen Eingaben bis zu 30 Sekunden fortlaufendes Videomaterial mit überragender Geschwindigkeit, Genauigkeit und Prompt-Einhaltung erzeugt.

Cosmos Transfer

Multicontrol-Modell für die schnelle Skalierung einer einzelnen Simulation oder eines räumlichen Videos in verschiedenen Umgebungen mit unterschiedlichen Lichtverhältnissen.

Beschleunigen Sie 3D-Eingaben aus physischen KI-Simulationsframeworks, wie CARLA oder NVIDIA Isaac Sim™, um eine vollständig steuerbare Datenaugmentation und synthetische Datengenerierungs- Pipelines zu ermöglichen.

Cosmos Reason

Vollständig anpassbares, Reasoning-VLM (Vision Language Model), das sich dadurch auszeichnet, dass es die physische Welt wie ein Mensch versteht, indem es strukturiertes Denken auf Videos und Bilder anwendet.

Entwickelt, um KI-Agenten für Videoanalysen zur Laufzeit mit räumlich-zeitlichem Verständnis städtischer und industrieller Operationen zu versorgen, Trainingsdaten für Robotik und autonome Fahrzeuge (AV) zu kuratieren und Roboterentscheidungen zu treffen.

Datenkuration

NVIDIA Cosmos Curator ist ein Framework, mit dem Entwickler schnell die für die Entwicklung physischer KI benötigten umfangreichen Sensordaten filtern, annotieren und deduplizieren können, um maßgeschneiderte Datensätze zu erstellen, die den Modellanforderungen entsprechen.

Beschleunigen Sie die effiziente Verarbeitung und Erzeugung von Datensätzen.


Anwendungsfälle

Wie Cosmos die KI in allen Branchen beschleunigt

Nutzen Sie die Cosmos-World-Foundation-Modelle, um Daten für nachgelagerte Pipelines in den Bereichen Robotik, autonome Fahrzeuge und industrielle Bildverarbeitungssysteme zu simulieren, zu analysieren und zu generieren.

Robot Learning

Roboter benötigen umfangreiche, vielfältige Trainingsdaten, um ihre Umgebung effektiv wahrzunehmen und damit zu interagieren. Mit Cosmos-WFMs generieren Entwickler steuerbare, hochgradig präzise synthetische Daten, um Wahrnehmungs- und Richtlinienmodelle für Roboter zu trainieren.

Training autonomer Fahrzeuge

Vielfältige, hochgradig präzise Sensordaten sind entscheidend für das Sicherheitstraining sowie das Testen und Validieren autonomer Fahrzeuge. Mit nachträglich anhand von Fahrzeugdaten trainierten Cosmos-WFMs können Entwickler die vorhandene Datenvielfalt durch neue Wetter-, Beleuchtungs- und Geolokalisierungsdaten erweitern oder auf Multisensoransichten ausweiten und so erhebliche Zeit- und Kosteneinsparungen erzielen.

KI-Agenten für Videoanalysen

Diese KI-Agenten können Echtzeit- oder aufgezeichnete Videostreams analysieren und zusammenfassen sowie damit interagieren, um die Automatisierung, Sicherheit und betriebliche Effizienz in industriellen und urbanen Umgebungen zu verbessern.

Cosmos Reason ist ein anpassbares Reasoning-VLM (Vision Language Model), das KI-Agenten für Videoanalysen mit erweitertem visuellem Verständnis und räumlich-zeitlichen Schlussfolgerungen der physischen Welt versorgt. Diese KI-Agenten bieten die Beantwortung von Fragen in Echtzeit, schnelle Warnmeldungen und umfassende kontextbezogene Erkenntnisse, die intelligentere und reaktionsschnellere Systeme in Edge- und Cloud-Bereitstellungen unterstützen.

Vertrauenswürdige KI

Unterstützung der Community für physische KI

Cosmos-Modelle, -Guardrails und -Tokenizer sind auf Hugging Face und GitHub verfügbar und bieten Ressourcen, um der Datenknappheit beim Training physischer KI-Modelle zu begegnen.

KI-Infrastruktur

Bestleistung mit NVIDIA Blackwell

Server der NVIDIA RTX PRO 6000 Blackwell-Serie beschleunigen die Entwicklung physischer KI für Roboter, autonome Fahrzeuge und KI-Agenten während des Trainings, der Generierung synthetischer Daten, der Simulation und der Inferenz.

Auf NVIDIA Blackwell GB200 erzielen Sie für Cosmos-World-Foundation-Modelle die Spitzenleistung für industrielle Post-Trainings- und Inferenz-Workloads.

Technologieumfeld

Übernommen von führenden Innovatoren auf dem Gebiet der physischen KI

Modellentwickler aus den Bereichen Robotik, autonome Fahrzeuge und Computer Vision KI nutzen Cosmos, um die Entwicklung physischer KI zu beschleunigen.

Nächste Schritte

Sind Sie bereit?

Testen Sie ein weltweites Foundation-Modell im NVIDIA API-Katalog oder beginnen Sie mit der Entwicklung Ihrer eigenen Weltmodelle mit Cosmos.

Post-Train-WFMs

Cosmos WFMs sind speziell für das Nachtraining entwickelt und ermöglichen leistungsstarke Downstream-Weltmodelle, die die Entwicklung physischer KI beschleunigen.

Kuratieren von Videodaten für Weltmodelle

Nutzen Sie eine beschleunigte Datenverarbeitungs- und Datenaufbereitungspipeline, die auf NVIDIA NeMo Curator basiert und für NVIDIA Rechenzentrum-GPUs optimiert ist.

Ressourcen

Aktuelle Neuigkeiten der Cosmos-Entwickler

Häufig gestellte Fragen

Beginnen Sie mit der Dokumentation. Cosmos-Welt-Foundation-Modelle sind auf Hugging Face mit Inferenz- und Nachtrainingsskripten auf GitHub frei verfügbar. Entwickler können zudem den Cosmos-Tokenizer über /NVIDIA/cosmos-tokenizer auf GitHub und Hugging Face nutzen.

Cosmos World Foundation Models sind im Rahmen einer NVIDIA Open-Model-Lizenz für alle zugänglich.

PyTorch-Skripte sind für alle Cosmos-Modelle für das Nachtraining frei verfügbar. Bitte lesen Sie die Dokumentation, um eine Schritt-für-Schritt-Anleitung für das Nachtraining zu erhalten.

Ja, Sie können Cosmos verwenden, um mit Ihrem bevorzugten Foundation Model oder Ihrer Modellarchitektur Modelle von Grund auf neu zu erstellen. Sie können zunächst NeMo Curator für die Vorverarbeitung von Videodaten verwenden. Anschließend komprimieren und dekodieren Sie Ihre Daten mit Cosmos Tokenizer. Sobald Sie die Daten verarbeitet haben, können Sie Ihr Modell mit NVIDIA NeMo trainieren oder optimieren.

Mit NVIDIA NIM™ Microservices können Sie Ihre physischen KI-Modelle einfach in Ihre Anwendungen integrieren, die sich über Cloud, Rechenzentren und Workstations erstrecken.

Sie können NVIDIA DGX Cloud auch nutzen, um KI-Modelle zu trainieren und sie in großem Umfang überall bereitzustellen.

Alle drei sind WFMs mit verschiedenen Rollen:

  • Cosmos Predict generiert aus Text-, Bild- oder Video-Prompts diverse Videoszenen und eignet sich damit ideal für die Feinabstimmung von Robotern oder autonomen Fahrzeugen.
  • Cosmos Transfer wendet einen Multicontrol-Transfer – Veränderung der Beleuchtung und der Umgebungen – auf physikbasierte Videos an, die häufig in Simulatoren wie NVIDIA Omniverse erstellt wurden.
  • Cosmos Reason beantwortet Textabfragen durch Schlussfolgerungen aus Video- und Bildeingaben.

Cosmos Reason kann aus einem Startvideo neue und vielfältige Text-Prompts für Cosmos Predict generieren oder synthetische Daten aus Predict und Transfer rezensieren und annotieren.

Omniverse erstellt mit verschiedenen generativen APIs, SDKs und NVIDIA RTX-Rendering-Technik realistische 3D-Simulationen von Aufgaben in der Praxis.

Entwickler können Omniverse-Simulationen als Instruktionsvideos in Cosmos Transfer-Modelle eingeben, um steuerbare fotorealistische synthetische Daten zu generieren.

Omniverse stellt die Simulationsumgebung vor und nach dem Training bereit, während Cosmos die Foundation-Modelle für die Generierung von Videodaten und das Trainieren physischer KI-Modelle zur Verfügung stellt.

Erfahren Sie mehr über NVIDIA Omniverse.