Physische KI

NVIDIA Cosmos

Beschleunigen Sie die Entwicklung physischer KI mit World-Foundation-Modellen.

Überblick

Was ist NVIDIA Cosmos?

NVIDIA Cosmos™ ist eine Plattform mit modernen generativen World-Foundation-Modellen (WFM), fortschrittlichen Tokenizern, Guardrails und einer beschleunigten Datenverarbeitungs- und Kuratierungspipeline, die die Entwicklung von Systemen mit physischer KI wie autonome Fahrzeuge (AVs) und Roboter beschleunigen soll.

Die World-Foundation-Modelle von Cosmos sind für Entwickler physischer KI offen verfügbar

Modelle auf dem neuesten Stand der Technik, die mithilfe von Millionen von Stunden an Fahr- und Robotik-Videodaten trainiert wurden, um die Entwicklung physischer KI zu demokratisieren, verfügbar unter einer offenen Modelllizenz.

Die World-Foundation-Model-Plattform zur beschleunigten Entwicklung physischer KI

Die Entwicklung von Systemen mit physischer KI („Embodied AI“), darunter Roboter und autonome Fahrzeuge, wird mit der neuen NVIDIA Cosmos-Plattform beschleunigt.

Vorteile

Beschleunigen Sie die Entwicklung physischer KI mit World-Foundation-Modellen

Cosmos bietet Entwicklern einen offenen und einfachen Zugang zu hochleistungsfähigen World-Foundation-Modellen und Datenpipelines und macht damit die Entwicklung physischer KI für jeden möglich.

Physikorientiert

Eine Suite von Videomodellen der ersten Generation, die auf 9.000 Billionen Token trainiert wurden, darunter 20 Millionen Stunden Robotik- und Fahrdaten, generiert hochwertige Videos aus multimodalen Eingaben wie Bildern, Text oder Videos.

Offen

Cosmos WFMs und Tokenizer unterliegen der NVIDIA Open Model License, die es Entwicklern weltweit ermöglicht, physische KI-Systeme in großem Maßstab ohne hohe Einstiegskosten zu erstellen.

Beschleunigen Sie die Verarbeitung und Kuratierung von Daten

Beschleunigen Sie die Datenkuratierung um das 20-Fache mit der NVIDIA NeMo Curator-Pipeline von CUDA™-X und KI-beschleunigten NVIDIA-Tools für die Verarbeitung von über 100 PB Daten. Diese Technologie bietet sofort einsatzbereite Optimierungen, die die Gesamtbetriebskosten (TCO) minimieren und die Markteinführung beschleunigen.

Entwickeln Sie Ihre eigenen Modelle

Der

Cosmos-Tokenizer konvertiert visuelle Daten in hochpräzise Token mit 8-fach besserer Kompression und 12-fach schnellerer Verarbeitung.

NVIDIA NeMo™ bietet beschleunigtes Training und Feinabstimmung, um multimodale generative KI-Modelle für physische KI zu erstellen.

Modelle

NVIDIA Cosmos World Foundation Models

Eine Serie von vorab trainierten Modellen, die speziell für die Generierung von physikorientierten Videos und Umgebungszuständen für die Entwicklung physischer KI entwickelt wurden.


Weiteres über Modellarchitekturen, Entwicklungsressourcen und Verfügbarkeit erfahren Sie hier.

Eine Serie von modernsten Modellen

  • Autoregressive Modelle und Diffusionsmodelle für die Generierung von Text-to-World und Video-to-World, verfügbar in Parametergrößen von 4 bis 14 Milliarden für die verschiedensten Anforderungen.
  • Upsampling-Modell mit 12-Milliarden-Parameter für die Verfeinerung von Textaufforderungen, das eine höhere Genauigkeit und Detailtreue in den generierten Ausgaben liefert.
  • 7-Milliarden-Parameter-Modell für die Dekodierung von Videosequenzen, optimiert für Augmented-Reality-Anwendungen.

Eingebaute Guardrails

  • Pre-Guard zum Filtern von Marken, NSFW-Inhalten („Not Safe For Work“) und schädlichen Aufforderungen.
  • Post-Guard zum Entfernen fragwürdiger Szenarien.
  • Guardrail zur Unkenntlichmachung menschlicher Gesichter.
  • Digitale Wasserzeichen auf synthetischen Videos, die aus Preview-APIs aus dem NVIDIA API-Katalog generiert werden.

Benchmarks

Entwicklung der Performance physischer KI

NVIDIA arbeitet mit dem Ökosystem der Bereiche Robotik und Autonome Fahrzeuge zusammen, um eine Reihe von Benchmarks zu entwickeln, die die spezifischen Anforderungen von physischen KI-Anwendungen anhand von World-Foundation-Modellen berücksichtigen.

Cosmos-Benchmarks wurden entwickelt, um die nächste Generation von Weltmodellen mit fortschrittlichen Kriterien wie 3D-Konsistenz und Physik-Ausrichtung zu bewerten, die für Robotik und autonome Systeme unerlässlich sind.

Im Vergleich zu VideoLDM (VLDM), einem generativen Baseline-Modell für die Videosynthese, zeichnen sich Cosmos WFMs durch geometrische Genauigkeit mit geringeren Sampson-Fehlern und besserer zeitlicher Stabilität aus. Benchmarks bewerten WFMs auch auf der Grundlage von physischem Verhalten wie Schwerkraft und Kollisionsdynamik.

Cosmos WFMs übertreffen VLDM immer wieder bei der visuellen Konsistenz und erzielen eine bis zu 14-mal höhere Erfolgsrate bei der Posenschätzung. Während Diffusionsmodelle von Haus aus eine höhere Genauigkeit aufweisen, bieten autoregressive Modelle eine hervorragende Leistung bei benutzerdefinierten Modellen.

Anwendungsfälle

Wie Entwickler NVIDIA Cosmos nutzen

Schauen Sie sich an, wie Entwickler aus den Bereichen Robotik, Autonome Fahrzeuge und Vision AI mit Cosmos noch bessere Ergebnisse erzielen.

Videosuche

Cosmos hilft Entwicklern, maßgeschneiderte Datensätze für das Training ihrer KI-Modelle zu erstellen. Ob es sich um Aufnahmen schneebedeckter Straßen für selbstfahrende Autos oder um geschäftige Lagerhallen für Robotik handelt, Cosmos vereinfacht das Tagging und die Suche in Videos, indem es räumliche und zeitliche Muster erkennt und so das Vorbereiten der Trainingsdaten erleichtert.

Das spart Zeit, senkt Kosten und trägt dazu bei, KI-Modelle zu liefern, die für den realen Einsatz äußerst wichtig und wirkungsvoll sind.

Steuerbare synthetische 3D-to-Real-Daten

Entwickler können ihre 3D-Simulationsdaten nutzen, um fotorealische synthetische Videos zu generieren. Mit Omniverse können sie 3D-Umgebungen erstellen, die ihre Anforderungen an das Modelltraining erfüllen. Als Nächstes können sie fotorealistische Videos erzeugen, die von 3D-Szenen präzise gesteuert werden, um hochgradig maßgeschneiderte synthetische Datensätze zu erstellen.

Training und Evaluierung von Richtlinienmodellen

Cosmos-World-Foundation-Modelle, die auf handlungsbedingte Videovorhersagen abgestimmt sind, ermöglichen ein skalierbares und reproduzierbares Training und die Evaluierung von Richtlinienmodellen, die Strategien für physische KI-Systeme definieren, indem sie Zustände als Handlungen darstellen. Entwickler nutzen diese Modelle, um die Abhängigkeit von riskanten realen Tests oder komplexen Simulationen für Aufgaben wie Hindernisnavigation und Objektmanipulation zu reduzieren, die Leistung zu optimieren und die Zuverlässigkeit in realen Anwendungen wie Robotik und autonomen Fahrzeugen sicherzustellen.

Vorausschau

Cosmos bringt fortschrittliche vorausschauende Intelligenz in die physische KI, mit der Systeme zukünftige Szenarien vorhersehen und intelligentere Entscheidungen treffen können. Durch die Vorausschau-Generierung – die Generierung vorausschauender Videos auf der Grundlage früherer Daten und Textaufforderungen – ermöglicht Cosmos der physischen KI die Auswahl optimaler Handlungen, was zu einer Verbesserung der Effizienz, Anpassungsfähigkeit und Sicherheit in dynamischen Umgebungen führt.

Multiversum-Simulation

Mit NVIDIA Omniverse können Entwickler multiple Cosmos-Ergebnisse simulieren, um Echtzeit-Szenarien zu bewerten, Entscheidungen zu beschleunigen und KI-gesteuerte Systeme wie Robotik und autonome Fahrzeuge zu optimieren. Gemeinsam ermöglichen Cosmos und Omniverse den physischen KI-Modellen, alle erdenklichen zukünftigen Ergebnisse zu erforschen und den besten Weg für eine höhere Präzision und Zuverlässigkeit in komplexen Umgebungen auszuwählen.

Ökosystem

Übernommen von führenden Innovatoren für physische KI

Modellentwickler aus den Bereichen Robotik, Autonome Fahrzeuge und Vision AI verwenden Cosmos zur beschleunigten Entwicklung physischer KI.

Die nächsten Schritte

Sind Sie bereit?

Testen Sie ein World-Foundation-Modell im NVIDIA API-Katalog oder beginnen Sie mit dem Erstellen Ihrer World-Modelle mit NVIDIA Cosmos.

Erstellen Sie Ihre eigenen Modelle

NVIDIA NeMo bietet eine End-to-End-Pipeline zum Kuratieren, Tokenisieren und Feinabstimmen von Weltmodellen auf jeder Plattform.

Starten Sie mit der Kuratierung von Videodaten für Weltmodelle

Beschleunigte Datenverarbeitung und Kuratierungspipeline mit NVIDIA NeMo Curator und optimiert für NVIDIA-GPUs im Rechenzentrum.

Häufig gestellte Fragen

Entwickler physischer KI können jetzt mit den Cosmos-World-Foundation-Modellen starten, die im NGC-Katalog und auf Hugging Face verfügbar sind. Cosmos bietet außerdem eine End-to-End-Pipeline zur Feinabstimmung der Foundation Models mit NVIDIA NeMo. Entwickler können den Cosmos-Tokenizer von /NVIDIA/cosmos-tokenizer auf GitHub und Hugging Face verwenden.

Die Cosmos World-Foundation-Modelle sind für alle unter einer offenen NVIDIA-Modelllizenz verfügbar.

Ja, Cosmos unterstützt die Feinabstimmung mit NeMo. Sie können Modelle mit gängigen Techniken wie LoRA und RLHF (Reinforcement Learning from Human Feedback) effizient trainieren und feinabstimmen. Sie können auch PyTorch wählen, um das Training der WFMs mit Ihren eigenen Datensätzen fortzusetzen.

Ja, Sie können Cosmos verwenden, um mit Ihrem bevorzugten Foundation-Modell oder Ihrer bevorzugten Modellarchitektur Modelle von Grund auf neu zu erstellen. Beginnen Sie mit NeMo Curator für die Vorverarbeitung von Videodaten. Komprimieren und dekodieren Sie Ihre Daten anschließend mit dem Cosmos-Tokenizer. Sobald Sie die Daten verarbeitet haben, können Sie Ihr Modell mit NVIDIA NeMo trainieren oder feinabstimmen.

Die NIM-Microservices bieten Ihnen die Möglichkeit, Ihre physischen KI-Modelle ganz leicht in Ihre Anwendungen in der Cloud, in Rechenzentren und auf Workstations zu integrieren.

Außerdem können Sie mit NVIDIA DGX Cloud KI-Modelle trainieren und in beliebigem Maßstab bereitstellen.

Cosmos und Cosmos Nemotron sind beides Varianten von NVIDIA-Modellen, die zur Verarbeitung und Interpretation von Visualisierungen aus der physischen Welt entwickelt wurden.

Cosmos-Modelle sind World-Foundation-Modelle, die sich auf die Vorhersage und Generierung von physikorientierten Videos konzentrieren und dabei helfen, zukünftige Zustände virtueller Umgebungen zu simulieren und zu erkennen. Cosmos-Nemotron-Modelle hingegen sind Vision-Sprachemodelle, die auf die Abfrage und Zusammenfassung von Bildern und Videos spezialisiert sind und die KI befähigen, sowohl physische als auch virtuelle visuelle Daten zu interpretieren und darauf zu reagieren.

Die beiden Varianten ergänzen sich gegenseitig und ermöglichen fortschrittliche KI-Funktionen, die auf visuellem Verständnis beruhen.