Cosmos 3
Il primo omni-modello con ragionamento nativo, generazione di mondo e azioni. Basato su Mixture-of-Transformers.
Utilizzalo come un modello linguistico visivo (VLM) per ragionare su oggetti, interazioni e intenzioni in scenari complessi del mondo reale.
Per gli avvisi in tempo reale e le didascalie dense per l'ispezione di qualità, la sicurezza pubblica, il monitoraggio del traffico, la logistica e la guida autonoma.
Accelera l'apprendimento delle politiche robotiche con NVIDIA Cosmos™ 3 come base per i World Action Models (WAM).
Post-addestra il modello di base del mondo generalizzato su dati specializzati di telecamere e embodiment. Il modello di politiche adatta le azioni pre-apprese ad attività, domini e comportamenti specifici su larga scala.
Eseguilo come un simulatore di mondo controllabile e basato sulla fisica per prevedere più approcci, valutare i risultati in un ciclo chiuso e convergere sul comportamento corretto.
Espandi il loop ad ambienti, attività e condizioni per migliorare continuamente senza rischi nel mondo reale.
Genera infiniti futuri plausibili da testo, immagini, video, suono ambientale e input di azione.
Utilizza la generazione video come immaginazione per addestrare la physical AI senza essere vincolati da ciò che è stato catturato fisicamente.
Video
Ascolta Jensen Huang, fondatore e CEO di NVIDIA, presentare NVIDIA Cosmos 3 al COMPUTEX 2026, il modello di base più avanzato al mondo progettato per aiutare gli sviluppatori a creare sistemi autonomi in grado di comprendere, simulare e agire nel mondo reale.
Opzioni per iniziare
Crea basandoti sulla stessa tecnologia che alimenta Cosmos 3. Apri framework e competenze in modo che gli sviluppatori di tutto il mondo possano personalizzare, estendere e contribuire alla physical AI.
Filtra, annota e deduplica rapidamente grandi quantità di dati dei sensori con Cosmos Curator.
Esamina e valuta gli output video generativi su larga scala utilizzando Cosmos Evaluator.
Crea, post-addestra o distribuisci rapidamente modelli del mondo utilizzando framework aperti di post-addestramento, valutazione e ottimizzazione e script e competenze di inferenza.
Trasforma gli agenti di codifica in esperti di dati sintetici per lo sviluppo di physical AI.
Casi d'uso
Crea una politica di apprendimento robotico che consenta agli embodied agent di operare in ambienti del mondo reale in condizioni sia note che ignote.
Genera dati dei sensori personalizzati, diversificati e ad alta fedeltà per addestrare, testare e convalidare in modo sicuro i veicoli autonomi.
Migliora l'automazione, la sicurezza e l'efficienza operativa in ambienti industriali e urbani.
Con Cosmos, gli agenti IA possono analizzare, riepilogare e interagire con stream video in tempo reale o registrati per:
Prestazioni
Cosmos 3 offre prestazioni ottimali sull'hardware NVIDIA. I server NVIDIA RTX PRO™ 6000 Serie Blackwell accelerano lo sviluppo della physical AI per robot, veicoli autonomi e agenti IA per addestramento, generazione di dati sintetici, simulazione e inferenza.
Sblocca il massimo delle prestazioni per i modelli di base di Cosmos su NVIDIA Blackwell GB200 per i carichi di lavoro industriali di post-addestramento e inferenza.
Ecosistema
Gli sviluppatori di modelli nei settori della robotica, dei veicoli autonomi e dell'IA visiva utilizzano Cosmos per accelerare lo sviluppo della physical AI.
Risorse
Cosmos 3 è basato sull'architettura Mixture of Transformers. I moduli di ragionamento e del generatore utilizzano transformer diversi per prestazioni e generazione efficienti. Il modello prima ragiona e poi genera, risultando in un'accuratezza fisica leader in tutte le capacità. Scopri di più sull'architettura qui.
I WFM di Cosmos sono disponibili per tutti mediante una licenza NVIDIA Open Model.
Cosmos 3 è disponibile al pubblico con script di post-addestramento su GitHub per ogni modalità e modulo. Inoltre, NVIDIA TAO 7 fornisce una suite di competenze e strumenti per gli agenti per l'ottimizzazione dei modelli di visione artificiale, tra cui Cosmos 3, con agenti di codifica e prompt in linguaggio naturale.
Sì, puoi utilizzare Cosmos per creare da zero con il tuo modello di base o l'architettura di modello preferiti. Puoi iniziare con Cosmos Curator per la pre-elaborazione dei dati video. Quindi comprimi e decodifica i tuoi dati con il tokenizzatore Cosmos. Una volta elaborati i dati, puoi addestrare o perfezionare il modello.
Utilizzando i microservizi NVIDIA NIM™, puoi integrare facilmente i tuoi modelli di physical AI nelle applicazioni cloud, nei data center e nelle workstation.
Puoi anche utilizzare NVIDIA DGX Cloud per addestrare i modelli IA e distribuirli ovunque su larga scala.
Cosmos 3 è un omni-modello in grado di generare testi, immagini, video, suoni e azioni. Cosmos 2.5 e Cosmos 2 invece mantenevano la percezione e la generazione come modelli separati e le modalità si limitavano a testo, immagini e video.
Omniverse crea simulazioni 3D realistiche di attività del mondo reale utilizzando diverse API generative, SDK e la tecnologia di rendering NVIDIA RTX.
Gli sviluppatori possono immettere le simulazioni Omniverse come video di istruzioni nei modelli Cosmos Transfer per generare dati sintetici fotorealistici e controllabili.
Insieme, Omniverse fornisce ambienti di simulazione pre- e post-addestramento, mentre Cosmos fornisce modelli di base per generare dati video e addestrare i modelli di physical AI.
Scopri di più su NVIDIA Omniverse.