Physische KI
Entwickeln Sie physische KI schneller mit weltweit führenden Foundation-Modellen und offenen Frameworks für Datenverarbeitung, Training und Bewertung.
Cosmos 3
Das erste Omni-Modell mit nativer Logik-, Welt- und Handlungsgenerierung. Basierend auf Mixture-of-Transformers.
Nutzen Sie es als Vision-Sprachmodell (VLM), um über Objekte, Interaktionen und Absichten in komplexen realen Szenarien logisch schlusszufolgern.
Für Echtzeit-Warnungen und Dense Captioning in den Bereichen Qualitätsprüfung, öffentliche Sicherheit, Verkehrsüberwachung, Logistik und autonomes Fahren.
Beschleunigen Sie das Policy-Learning für Roboter mit NVIDIA Cosmos™ 3 als Rückgrat für World Action Models (WAMs).
Trainieren Sie das generalisierte World Foundation Model mit spezialisierten Kamera- und Verkörperungsdaten nach. Das Richtlinienmodell passt vorgelernte Handlungen an bestimmte Aufgaben, Bereiche und Verhaltensweisen in großem Maßstab an.
Führen Sie ihn als steuerbaren, physikbasierten Welt-Simulator aus, um mehrere Ansätze vorherzusagen, Ergebnisse in einem geschlossenen Regelkreis zu bewerten und das richtige Verhalten zu bestimmen.
Skalieren Sie den Kreislauf über Umgebungen, Aufgaben und Bedingungen hinweg – für eine kontinuierliche Verbesserung, ohne dass Risiken in der realen Welt auftreten.
Generieren Sie unendlich viele plausible Zukunftsaussichten aus Text, Bild, Video, Umgebungssound und Handlungs-Eingabe.
Nutzen Sie die Videogenerierung als Imagination, um physische KI zu trainieren, ohne durch das eingeschränkt zu sein, was physisch erfasst wurde.
Video
Hören Sie von Jensen Huang, Gründer und CEO von NVIDIA, wie er NVIDIA Cosmos 3 auf der COMPUTEX 2026 vorstellt, das weltweit fortschrittlichste Foundation Model, das Entwicklern dabei hilft, autonome Systeme zu entwickeln, die die reale Welt verstehen, simulieren und in ihr handeln können.
Einstiegsoptionen
Nutzen Sie dieselbe Technologie, die Cosmos 3 unterstützt. Offene Frameworks und Fähigkeiten, damit Entwickler weltweit physische KI anpassen, erweitern und zu ihr beitragen können.
Mit Cosmos Curator können Sie große Mengen an Sensordaten schnell filtern, kommentieren und deduplizieren.
Überprüfen und bewerten Sie generative Videoausgaben in großem Maßstab mit Cosmos Evaluator.
Entwickeln Sie Weltmodelle, trainieren Sie sie nach oder stellen Sie diese schnell bereit, mit offenen Nachtrainier-, Bewertungs-, Optimierungs-Frameworks sowie Inferenz-Skripten und -Fähigkeiten.
Verwandeln Sie Programmieragenten in Experten für synthetische Daten für die Entwicklung physischer KI.
Anwendungsbeispiele
Entwickeln Sie eine Richtlinie für das Roboterlernen, die es verkörperten Agenten ermöglicht, in realen Umgebungen sowohl unter sichtbaren als auch unter unsichtbaren Bedingungen zu arbeiten.
Generieren Sie benutzerdefinierte, vielfältige und hochpräzise Sensordaten, um autonome Fahrzeuge sicher zu trainieren, zu testen und zu validieren.
Verbessern Sie Automatisierung, Sicherheit und betriebliche Effizienz in industriellen und städtischen Umgebungen.
Mit Cosmos können KI-Agenten Echtzeit- oder aufgezeichnete Videostreams analysieren, zusammenfassen und mit ihnen interagieren, um:
Leistung
Cosmos 3 erzielt die beste Leistung auf NVIDIA-Hardware. Die Server der NVIDIA RTX PRO™ 6000 Blackwell-Serie beschleunigen die Entwicklung physischer KI für Roboter, autonome Fahrzeuge und KI-Agenten – ob beim Trainieren, Generieren synthetischer Daten, Simulieren oder Inferenzieren.
Nutzen Sie Spitzenleistung für Cosmos-World-Foundation-Modelle auf NVIDIA Blackwell GB200 für industrielles Nachtrainieren und Inferenz-Workloads.
Ökosystem
Modellentwickler aus den Bereichen Robotik, autonome Fahrzeuge und Vision-KI nutzen Cosmos, um die Entwicklung physischer KI zu beschleunigen.
Ressourcen
Cosmos 3 basiert auf der Mixture-of-Transformers-Architektur. Reasoning- und Generator-Module nutzen verschiedene Transformers für effiziente Generierung und Leistung. Das Modell denkt daher zuerst und generiert dann, was zu einer führenden physikalischen Genauigkeit in allen Funktionen führt. Erfahren Sie hier mehr über die Architektur.
Cosmos WFMs sind unter einer NVIDIA Open-Model-Lizenz für alle verfügbar.
Cosmos 3 ist mit Skripten für das Nachtrainieren auf GitHub für jede Modalität und jedes Modul frei verfügbar. Darüber hinaus bietet NVIDIA TAO 7 eine Suite von Agenten-Fähigkeiten und Tools für die Feinabstimmung von Vision-KI-Modellen, einschließlich Cosmos 3, mit Programmieragenten und Prompts für natürliche Sprache.
Ja, Sie können Cosmos verwenden, um mit Ihrem bevorzugten Foundation-Modell oder Ihrer Modellarchitektur Modelle von Grund auf neu zu erstellen. Sie können zunächst Cosmos Curator für die Vorverarbeitung von Videodaten verwenden. Anschließend komprimieren und dekodieren Sie Ihre Daten mit Cosmos Tokenizer. Sobald Sie die Daten verarbeitet haben, können Sie Ihr Modell trainieren oder feinabstimmen.
Mit NVIDIA NIM™ Microservices können Sie Ihre physischen KI-Modelle einfach in Ihre Anwendungen integrieren, die sich über Cloud, Rechenzentren und Workstations erstrecken.
Sie können NVIDIA DGX Cloud auch nutzen, um KI-Modelle zu trainieren und sie überall in großem Maßstab bereitzustellen.
Cosmos 3 ist ein Omni-Modell, das über Text, Bild, Video, Sound und Handlung hinweg generieren kann. Während Cosmos 2.5 und Cosmos 2 Wahrnehmung und Generierung als separate Modelle beibehielten, waren die Modalitäten auf Text, Bild und Video beschränkt.
Omniverse erstellt mit verschiedenen generativen APIs, SDKs und NVIDIA RTX-Rendering-Technik realistische 3D-Simulationen von Aufgaben in der realen Welt.
Entwickler können Omniverse-Simulationen als Anleitungsvideos in Cosmos Transfer-Modelle eingeben, um kontrollierbare, fotorealistische synthetische Daten zu generieren.
Zusammen stellt Omniverse die Simulationsumgebung vor und nach dem Training bereit, während Cosmos die Foundation-Modelle für die Generierung von Videodaten und das Trainieren von Modellen für physische KI bereitstellt.
Erfahren Sie mehr über NVIDIA Omniverse.