Physische KI

NVIDIA Cosmos

Entwickeln Sie physische KI schneller mit weltweit führenden Foundation-Modellen und offenen Frameworks für Datenverarbeitung, Training und Bewertung.

Jetzt ausprobieren   |   Video   |   Blog

Cosmos 3

Das offene Foundation Model für physische KI

Das erste Omni-Modell mit nativer Logik-, Welt- und Handlungsgenerierung. Basierend auf Mixture-of-Transformers.

Power Vision KI-Reasoning

Nutzen Sie es als Vision-Sprachmodell (VLM), um über Objekte, Interaktionen und Absichten in komplexen realen Szenarien logisch schlusszufolgern. 

Für Echtzeit-Warnungen und Dense Captioning in den Bereichen Qualitätsprüfung, öffentliche Sicherheit, Verkehrsüberwachung, Logistik und autonomes Fahren.

Erstellen Sie Richtlinienmodelle

Beschleunigen Sie das Policy-Learning für Roboter mit NVIDIA Cosmos™ 3 als Rückgrat für World Action Models (WAMs). 

Trainieren Sie das generalisierte World Foundation Model mit spezialisierten Kamera- und Verkörperungsdaten nach. Das Richtlinienmodell passt vorgelernte Handlungen an bestimmte Aufgaben, Bereiche und Verhaltensweisen in großem Maßstab an.

Welten simulieren

Führen Sie ihn als steuerbaren, physikbasierten Welt-Simulator aus, um mehrere Ansätze vorherzusagen, Ergebnisse in einem geschlossenen Regelkreis zu bewerten und das richtige Verhalten zu bestimmen. 

Skalieren Sie den Kreislauf über Umgebungen, Aufgaben und Bedingungen hinweg – für eine kontinuierliche Verbesserung, ohne dass Risiken in der realen Welt auftreten.

Skalieren Sie synthetische Videodaten

Generieren Sie unendlich viele plausible Zukunftsaussichten aus Text, Bild, Video, Umgebungssound und Handlungs-Eingabe. 

Nutzen Sie die Videogenerierung als Imagination, um physische KI zu trainieren, ohne durch das eingeschränkt zu sein, was physisch erfasst wurde.

Power Vision AI Reasoning

Use as a vision language model (VLM) to reason over objects, interactions, and intent across complex real-world scenarios. 

For real-time alerts and dense captioning across quality inspection, public safety, traffic monitoring, logistics, and autonomous driving.

Build Policy Models

Accelerate robot policy learning with Cosmos 3 as the backbone for World Action Models (WAMs). 

Post-train the generalized world foundation model on specialized camera and embodiment data. The policy model adapts pre-learned actions to specific tasks, domains, and behaviors at scale.

Simulate Worlds

Run as a controllable, physics-grounded world simulator to predict multiple approaches, evaluate outcomes in a closed loop, and converge on the right behavior. 

Scale the loop across environments, tasks, and conditions to continuously improve without real-world risk.

Scale Synthetic Video Data

Generate infinite plausible futures from text, image, video, ambient sound and action input. 

Use video generation as imagination to train physical AI without being constrained by what's been physically captured.

Video

Cosmos wird vorgestellt

Hören Sie von Jensen Huang, Gründer und CEO von NVIDIA, wie er NVIDIA Cosmos 3 auf der COMPUTEX 2026 vorstellt, das weltweit fortschrittlichste Foundation Model, das Entwicklern dabei hilft, autonome Systeme zu entwickeln, die die reale Welt verstehen, simulieren und in ihr handeln können.

Einstiegsoptionen

Einstieg in NVIDIA Cosmos

1

Bereit zum Entwickeln? Greifen Sie direkt auf offene Modelle und Code zu.

2

Noch nicht bereit zum Entwickeln? Testen Sie die Cosmos-Modelle in unserem gehosteten Katalog.

3

Benötigen Sie Hilfe? Starten Sie umgehend mit unseren praktischen Modellrezepten.

Mit Cosmos entwickeln

Nutzen Sie dieselbe Technologie, die Cosmos 3 unterstützt. Offene Frameworks und Fähigkeiten, damit Entwickler weltweit physische KI anpassen, erweitern und zu ihr beitragen können.

Datenkuration

Mit Cosmos Curator können Sie große Mengen an Sensordaten schnell filtern, kommentieren und deduplizieren.

Überprüfen und bewerten Sie generative Videoausgaben in großem Maßstab mit Cosmos Evaluator.

Training und Beschleunigung

Entwickeln Sie Weltmodelle, trainieren Sie sie nach oder stellen Sie diese schnell bereit, mit offenen Nachtrainier-, Bewertungs-, Optimierungs-Frameworks sowie Inferenz-Skripten und -Fähigkeiten.

Agenten-Fähigkeiten für die Generierung synthetischer Daten

Verwandeln Sie Programmieragenten in Experten für synthetische Daten für die Entwicklung physischer KI.

Anwendungsbeispiele

Wie Cosmos KI in verschiedenen Branchen beschleunigt

Nutzen Sie Cosmos WFMs, um Daten für nachgelagerte Pipelines in den Bereichen Robotik, autonome Fahrzeuge und industrielle Vision-Systeme zu simulieren, zu analysieren und zu generieren.

Roboterlernen

Entwickeln Sie eine Richtlinie für das Roboterlernen, die es verkörperten Agenten ermöglicht, in realen Umgebungen sowohl unter sichtbaren als auch unter unsichtbaren Bedingungen zu arbeiten.

  • Trainieren Sie Cosmos 3 für verkörperungsspezifische Aufgaben, Umgebungen, Kamera- oder Sensor-Layouts und Richtlinien nach.
  • Führen Sie physikalisch genaue Closed-Loop-Simulationen aus.
  • Erstellen Sie eine End-to-End-Pipeline für die Augmentation und Bewertung synthetischer Daten mit Agentenfähigkeiten auf Basis von Cosmos

Training für autonome Fahrzeuge

Generieren Sie benutzerdefinierte, vielfältige und hochpräzise Sensordaten, um autonome Fahrzeuge sicher zu trainieren, zu testen und zu validieren. 

  • Bestehende Datenvielfalt mit neuen Wetter-, Beleuchtungs- und Geolokalisierungsdaten erweitern
  • Nachtrainieren, um Multi-Sensor-Ansichten zu erweitern
  • Erstellen Sie eine End-to-End-Pipeline für die Augmentation und Bewertung synthetischer Daten mit Agentenfähigkeiten auf Basis von Cosmos

Videoanalyse-KI-Agenten

Verbessern Sie Automatisierung, Sicherheit und betriebliche Effizienz in industriellen und städtischen Umgebungen. 

Mit Cosmos können KI-Agenten Echtzeit- oder aufgezeichnete Videostreams analysieren, zusammenfassen und mit ihnen interagieren, um:

  • kontextbezogene Warnungen in Echtzeit zu liefern
  • mit Ihren Videos zu sprechen und Erkenntnisse aus Live-Kamera-Feeds oder umfangreichen Videobibliotheken zu extrahieren
  • KI-Agenten für die Videoanalyse mit NVIDIA Metropolis Blueprint für die Videosuche und Zusammenfassung zu entwickeln
  • synthetische Trainingsdaten zu generieren, um die Genauigkeit des Verständnisses weiter zu verbessern

Leistung

Funktioniert am besten mit NVIDIA AI

Cosmos 3 erzielt die beste Leistung auf NVIDIA-Hardware. Die Server der NVIDIA RTX PRO™ 6000 Blackwell-Serie beschleunigen die Entwicklung physischer KI für Roboter, autonome Fahrzeuge und KI-Agenten – ob beim Trainieren, Generieren synthetischer Daten, Simulieren oder Inferenzieren.

Nutzen Sie Spitzenleistung für Cosmos-World-Foundation-Modelle auf NVIDIA Blackwell GB200 für industrielles Nachtrainieren und Inferenz-Workloads.

Ökosystem

Genutzt von führenden Innovatoren auf dem Gebiet der physischen KI

Modellentwickler aus den Bereichen Robotik, autonome Fahrzeuge und Vision-KI nutzen Cosmos, um die Entwicklung physischer KI zu beschleunigen.

Nächste Schritte

Werden Sie Mitglied der Cosmos-Community

Treten Sie mit Cosmos-Experten in Kontakt, arbeiten Sie mit anderen Entwicklern zusammen, geben Sie Feedback zu Modellen und profitieren Sie von kontinuierlichem Lernen durch Livestreams und Anleitungen.

Cosmos-Kochbuch

Ein umfassender Leitfaden für die Arbeit mit dem NVIDIA Cosmos-Ökosystem für reale, fachspezifische Anwendungen in den Bereichen Robotik, Simulation, autonome Systeme und Verständnis physischer Szenarien.

Entwicklung von KI-Agenten für Videoanalysen

Verwenden Sie Cosmos Reason mit NVIDIA Blueprint für Videosuche und -zusammenfassung (VSS), um KI-Agenten für skalierbares Echtzeit-Videoverstehen zu entwickeln.

Ressourcen

Das Neueste von Cosmos-Entwicklern

Häufig gestellte Fragen

Cosmos 3 basiert auf der Mixture-of-Transformers-Architektur. Reasoning- und Generator-Module nutzen verschiedene Transformers für effiziente Generierung und Leistung. Das Modell denkt daher zuerst und generiert dann, was zu einer führenden physikalischen Genauigkeit in allen Funktionen führt. Erfahren Sie hier mehr über die Architektur.

Cosmos WFMs sind unter einer NVIDIA Open-Model-Lizenz für alle verfügbar.

Cosmos 3 ist mit Skripten für das Nachtrainieren auf GitHub für jede Modalität und jedes Modul frei verfügbar. Darüber hinaus bietet NVIDIA TAO 7 eine Suite von Agenten-Fähigkeiten und Tools für die Feinabstimmung von Vision-KI-Modellen, einschließlich Cosmos 3, mit Programmieragenten und Prompts für natürliche Sprache. 

Ja, Sie können Cosmos verwenden, um mit Ihrem bevorzugten Foundation-Modell oder Ihrer Modellarchitektur Modelle von Grund auf neu zu erstellen. Sie können zunächst Cosmos Curator für die Vorverarbeitung von Videodaten verwenden. Anschließend komprimieren und dekodieren Sie Ihre Daten mit Cosmos Tokenizer. Sobald Sie die Daten verarbeitet haben, können Sie Ihr Modell trainieren oder feinabstimmen. 

Mit NVIDIA NIM™ Microservices können Sie Ihre physischen KI-Modelle einfach in Ihre Anwendungen integrieren, die sich über Cloud, Rechenzentren und Workstations erstrecken.

Sie können NVIDIA DGX Cloud auch nutzen, um KI-Modelle zu trainieren und sie überall in großem Maßstab bereitzustellen.

Cosmos 3 ist ein Omni-Modell, das über Text, Bild, Video, Sound und Handlung hinweg generieren kann. Während Cosmos 2.5 und Cosmos 2 Wahrnehmung und Generierung als separate Modelle beibehielten, waren die Modalitäten auf Text, Bild und Video beschränkt.

Omniverse erstellt mit verschiedenen generativen APIs, SDKs und NVIDIA RTX-Rendering-Technik realistische 3D-Simulationen von Aufgaben in der realen Welt.

Entwickler können Omniverse-Simulationen als Anleitungsvideos in Cosmos Transfer-Modelle eingeben, um kontrollierbare, fotorealistische synthetische Daten zu generieren.

Zusammen stellt Omniverse die Simulationsumgebung vor und nach dem Training bereit, während Cosmos die Foundation-Modelle für die Generierung von Videodaten und das Trainieren von Modellen für physische KI bereitstellt.

Erfahren Sie mehr über NVIDIA Omniverse.