IA fisica
Sviluppa modelli di base del mondo per far progredire l'IA fisica.
Panoramica
NVIDIA Cosmos™ è una piattaforma di modelli di base del mondo (WFM) generativi all'avanguardia, tokenizzatori avanzati, guardrail e una pipeline di elaborazione e selezione dei dati accelerata. È progettato per alimentare l'addestramento dei modelli del mondo e accelerare lo sviluppo dell'IA fisica per veicoli autonomi (AV) e robot.
Cosmos offre agli sviluppatori un facile accesso a modelli di base del mondo ad alte prestazioni, pipeline di dati e strumenti per post-addestrare questi modelli per le attività di robotica e di guida autonoma.
I modelli di base del mondo sono pre-addestrati su 20 milioni di ore di robotica e generano dati per generare stati del mondo basati sulla fisica.
Le WFM, i guardrail e i tokenizzatori di Cosmos sono concessi in licenza ai sensi della licenza NVIDIA Open Model License, che consente l'accesso a tutti gli sviluppatori di IA fisica.
Modelli
Una famiglia di modelli multimodali pre-addestrati che gli sviluppatori possono utilizzare immediatamente per la generazione del mondo e il ragionamento o post-addestrare per sviluppare modelli di IA fisica specializzati.
Modello generalista per la generazione del mondo e la previsione del movimento da input multimodali. Addestrato su 9.000 token di robotica e dati di guida e progettato appositamente per l'addestramento.
Disponibile come Cosmos NIM per l'inferenza accelerata ovunque.
La generazione di un mondo consapevole della fisica è condizionata da input di base e 3D. L'input include mappe di segmentazione, segnali di profondità, scansioni LiDAR, punti chiave, traiettorie, mappe HD e simulazione di verità di base di NVIDIA Omniverse™ per la generazione di dati sintetici controllabili.
Modello di ragionamento multimodale completamente personalizzabile per la pianificazione della risposta basata sulla comprensione spaziale e temporale.
Addestrato all'utilizzo di modelli di linguaggio visivo di ottimizzazione e apprendimento di rinforzo per il ragionamento a catena di pensieri.
Sviluppa modelli responsabili utilizzando Cosmos WFM con la funzione di pre-guardia per filtrare gli input non sicuri e di post-guardia per ottenere output coerenti e sicuri.
Cosmos offre agli sviluppatori pipeline di gestione di dati aperte e ad alte prestazioni, tokenizzatori, framework di addestramento e script di post-addestramento per creare in modo rapido e facile modelli di mondo specializzati come modelli di policy e modelli di azione in linguaggio visivo (VLA) per l'IA incorporata.
Gli sviluppatori post-addestrano i WFM Cosmos o si abbinano a NVIDIA Omniverse per affrontare i casi d'uso dell'IA fisica a valle.
Cosmos accelera la generazione di dati sintetici per l'addestramento dei modelli IA di percezione.
Omniverse fornisce API generative, strumenti e rendering NVIDIA RTX™ per creare scene 3D di realtà fisicamente accurate per Cosmos WFM. Utilizzando queste immagini come input, Cosmos Transfer WFM genera output fotorealistici, simulando diverse condizioni meteorologiche, ambienti e illuminazioni, prevedendo al contempo gli stati del mondo con una precisione fisica, sulla base di prompt di testo.
Gli sviluppatori possono utilizzare i WFM Cosmos generalisti o personalizzarli con i propri dati per una maggiore precisione negli SDG a valle.
Un modello di regole guida il comportamento di un sistema di IA fisica, garantendo che il sistema operi in modo sicuro e in linea con i suoi obiettivi. Cosmos Predict o Cosmos Reason possono essere post-addestrati ai modelli di policy per generare azioni, risparmiando costi, tempo e dati necessari per l'addestramento manuale delle policy.
I WFM Cosmos accelerano la valutazione delle politiche simulando azioni del mondo reale attraverso output video, utilizzando la fisica di verità di base Omniverse per garantire l'accuratezza. Gli sviluppatori possono creare un modello di linguaggio-visione (VLA) utilizzando Cosmos Reason e aggiungerlo per criticare e promuovere le azioni. Questo ciclo di simulazione riduce i costi, i tempi e i rischi dei test nel mondo reale, migliorando al contempo la precisione delle regole.
I WFM Cosmos possono essere post-addestrati per agire come motore o sistema multiverso, esplorando strategie di attività multiple, premiando i risultati più efficaci e migliorando il processo decisionale per il controllo predittivo e l'apprendimento di rinforzo. Gli sviluppatori possono aggiungere un modulo di ricompensa ai WFM Cosmos e simulare i risultati in Omniverse.
Presto disponibile
I modelli Cosmos, i guardrail e i tokenizzatori sono disponibili su Hugging Face e GitHub, con risorse per affrontare la scarsità di dati nell'addestramento dei modelli di IA fisica. Ci impegniamo a far progredire il programma Cosmos, trasparente, aperto e progettato per tutti.
Gli sviluppatori di modelli dei settori della robotica, dei veicoli autonomi e dell'IA visiva utilizzano Cosmos per accelerare lo sviluppo dell’IA fisica.
Gli sviluppatori di IA fisica possono iniziare ora con i modelli di base del mondo Cosmos, disponibili su Hugging Face e GitHub. Cosmos fornisce inoltre una pipeline completa per ottimizzare i modelli di base con NVIDIA NeMo. Gli sviluppatori possono utilizzare il tokenizer Cosmos da /NVIDIA/cosmos-tokenizer su GitHub e Hugging Face.
I world foundation model di Cosmos sono disponibili sotto una NVIDIA Open Model License per tutti.
Sì, ci sono due approcci per post-addestramento dei modelli Cosmos:
1) Utilizzando NeMo, puoi addestrare e ottimizzare in modo efficiente i modelli con tecniche più diffuse come LoRA (Low-Rank Adaption) e l'apprendimento di rinforzo basato sul feedback umano (RLHF). Puoi anche scegliere PyTorch per continuare ad addestrare i WFM utilizzando i tuoi set di dati.
2) Puoi utilizzare script PyTorch aperti da GitHub per post-addestramento di Cosmos WFM.
Sì, puoi utilizzare Cosmos per creare da zero con il tuo modello di base o l'architettura di modello preferiti. Puoi iniziare utilizzando NeMo Curator per la pre-elaborazione dei dati video. Quindi comprimi e decodifica i tuoi dati con il tokenizzatore Cosmos. Una volta elaborati i dati, puoi addestrare o ottimizzare il modello utilizzando NVIDIA NeMo.
Utilizzando i microservizi NVIDIA NIM™, puoi integrare facilmente i modelli di IA fisica nelle applicazioni cloud, nei data center e nelle workstation.
Puoi anche utilizzare NVIDIA DGX Cloud per addestrare i modelli IA e distribuirli ovunque su larga scala.
Omniverse crea simulazioni 3D realistiche di attività del mondo reale utilizzando diverse API generative, SDK e la tecnologia di rendering NVIDIA RTX.
Gli sviluppatori possono inserire le simulazioni Omniverse come video di istruzioni nel modello Cosmos Transfer per generare dati sintetici fotoreali controllabili.
Insieme, Omniverse fornisce l'ambiente di simulazione prima e dopo l'addestramento, mentre Cosmos fornisce i modelli di base per generare dati video e addestrare i modelli di IA fisica.
Scopri di più su NVIDIA Omniverse.