IA fisica

NVIDIA Cosmos

Sviluppa modelli di fondazione del mondo per far progredire l'IA fisica.

Panoramica

Cos'è NVIDIA Cosmos?

NVIDIA Cosmos™ è una piattaforma appositamente progettata per l'IA fisica, con modelli generativi di base del mondo (WFM) all'avanguardia, guardrail e una pipeline accelerata di elaborazione e selezione dei dati. Gli sviluppatori utilizzano Cosmos per accelerare lo sviluppo dell'IA fisica per i veicoli autonomi (AV), i robot e gli agenti IA per l'analisi video.

Personalizzazione di NVIDIA Cosmos per qualsiasi caso d'uso dell'IA fisica

Il Cosmos Cookbook offre una guida completa per gli sviluppatori di IA fisica per imparare, utilizzare e post-addestrare i modelli basati su Cosmos di NVIDIA, tra cui nuove applicazioni come LidarGen, Cosmos Policy e altro ancora.

Come scalare la generazione di dati per l'IA fisica con NVIDIA Cosmos Cookbook

In questo blog, campioneremo le ricette Cosmos Transfer per cambiare gli sfondi video, aggiungere nuove condizioni ambientali ai dati di guida, generare dati per la navigazione robotica e generare dati sintetici per gli scenari di traffico urbano.

Modelli aperti

Modelli Cosmos per l'IA fisica

Modelli generativi multimodali pre-addestrati che gli sviluppatori possono utilizzare immediatamente per la generazione di mondi o il ragionamento, oppure post-addestrare per sviluppare modelli di IA fisica.

Cosmos Predict

Un modello di previsione dello stato del mondo all'avanguardia in grado di generare fino a 30 secondi di video continui da input multimodali con una velocità, fedeltà e aderenza ai prompt superiori. Sblocca previsioni e pianificazione avanzate di scenari per la robotica e gli agenti IA prevedendo gli stati futuri di ambienti dinamici.

Cosmos Transfer

Questo modello multicontrollo scala rapidamente una singola simulazione o video spaziale in vari ambienti e condizioni di illuminazione. Accelera gli input 3D dai framework di simulazione dell'IA fisica, come CARLA o NVIDIA Isaac Sim™, per permettere pipeline di data augmentation e generazione di dati sintetici in modo completamente controllabile.

Cosmos Reason

Questo modello linguistico visivo (VLM) aperto, personalizzabile e capace di ragionare per l'IA fisica consente ai robot e agli agenti di IA visiva di ragionare come gli esseri umani. Può utilizzare le conoscenze pregresse, la comprensione della fisica e la razionalità per comprendere il mondo reale e come interagire con esso.

Elaborazione dei dati

NVIDIA Cosmos Curator è un framework che consente agli sviluppatori di filtrare, annotare e deduplicare rapidamente grandi quantità di dati dei sensori necessari per lo sviluppo dell'IA fisica, creando set di dati personalizzati per soddisfare le esigenze dei modelli. Con NVIDIA Cosmos Dataset Search (CDS), gli sviluppatori possono eseguire istantaneamente query di questi set di dati e recuperare gli scenari per il post-addestramento mirato.

Accelera l'elaborazione e la generazione efficienti di set di dati.

Casi d'uso

Come Cosmos accelera l'IA in diversi settori

Utilizza i WFM di Cosmos per simulare, fare ragionamenti e generare dati per le pipeline downstream di robotica, veicoli autonomi e sistemi di visione industriale.

Robot Learning

I robot hanno bisogno di dati di addestramento vasti e diversificati per percepire e interagire efficacemente con l'ambiente. Con WFM di Cosmos, gli sviluppatori possono generare dati sintetici controllabili e ad alta fedeltà per addestrare i modelli relativi alle percezioni e alle policy dei robot.

Addestramento dei veicoli autonomi

I dati dei sensori diversificati e ad alta fedeltà sono fondamentali per addestrare, testare e convalidare in modo sicuro i veicoli autonomi. Grazie al post-addestramento dei WFM di Cosmos sui dati dei veicoli, gli sviluppatori possono amplificare la diversità dei dati esistenti con nuovi dati su meteo, illuminazione e geolocalizzazioni, oppure estendersi nelle viste multi-sensore, risparmiando tempo e costi.

Agenti IA per l'analisi video

Questi agenti IA possono analizzare, riepilogare e interagire con gli stream video in tempo reale o registrati per migliorare l'automazione, la sicurezza e l'efficienza operativa negli ambienti industriali e urbani. Cosmos Reason alimenta gli agenti IA per l'analisi video al fine di fornire risposte alle domande, avvisi rapidi e ricche informazioni contestuali in tempo reale, alimentando sistemi più intelligenti e reattivi nelle distribuzioni edge e cloud.

IA affidabile

Supportare la community dell'IA fisica

I modelli Cosmos, i guardrail e i tokenizzatori sono disponibili su Hugging Face e GitHub, con risorse per affrontare la scarsità di dati nell'addestramento dei modelli di IA fisica.

Infrastruttura IA

Ottieni le migliori prestazioni con NVIDIA Blackwell

I server NVIDIA RTX PRO 6000 Serie Blackwell accelerano lo sviluppo dell'IA fisica per robot, veicoli autonomi e agenti IA per addestramento, generazione di dati sintetici, simulazione e inferenza.

Sblocca il massimo delle prestazioni per i modelli di base di Cosmos su NVIDIA Blackwell GB200 per i carichi di lavoro industriali di post-addestramento e inferenza.

Ecosistema

Adottato dai principali innovatori di IA fisica

Gli sviluppatori di modelli nei settori della robotica, dei veicoli autonomi e dell'IA visiva utilizzano Cosmos per accelerare lo sviluppo dell'IA fisica.

Prossimi passi

Vuoi iniziare?

Prova uno dei modelli di fondazione del mondo nel catalogo delle API NVIDIA o inizia a progettare i tuoi modelli del mondo utilizzando NVIDIA Cosmos.

Cosmos Cookbook

Una guida completa per lavorare con l'ecosistema NVIDIA Cosmos per le applicazioni del mondo reale e specifiche per dominio quali robotica, simulazioni, sistemi autonomi e comprensione fisica della scena.

Creare agenti IA per l'analisi video

Utilizza Cosmos Reason con NVIDIA Blueprint per la ricerca e il riepilogo video (VSS) per creare agenti IA per la comprensione dei video scalabile e in tempo reale.

Risorse

Ultime notizie dagli sviluppatori Cosmos

FAQ

Inizia consultando la documentazione. I WFM di Cosmos sono pubblicamente disponibili su Hugging Face con script per l'inferenza e il post-addestramento su GitHub.

I WFM di Cosmos sono disponibili per tutti mediante una licenza NVIDIA Open Model.

Gli script PyTorch sono disponibili pubblicamente per tutti i modelli Cosmos per il post-addestramento. Fai riferimento al nuovo Cosmos Cookbook che contiene ricette passo-passo e script di post-addestramento per creare, personalizzare e distribuire rapidamente i modelli di fondazione del mondo Cosmos di NVIDIA per la robotica e i sistemi autonomi.

Sì, puoi utilizzare Cosmos per creare da zero con il tuo modello di fondazione o l'architettura di modello preferiti. Puoi iniziare utilizzando NeMo Curator per la pre-elaborazione dei dati video. Quindi comprimi e decodifica i tuoi dati con il tokenizzatore Cosmos. Una volta elaborati i dati, puoi addestrare o ottimizzare il modello utilizzando NVIDIA NeMo.

Utilizzando i microservizi NVIDIA NIM™, puoi integrare facilmente i modelli di IA fisica nelle applicazioni cloud, nei data centers e nelle workstation.

Puoi anche utilizzare NVIDIA DGX Cloud per addestrare i modelli IA e distribuirli ovunque su larga scala.

Tutti e tre sono dei WFM con ruoli distinti:

  • Cosmos Predict genera diverse scene video da prompt di testo, immagini o video ed è l'ideale per il post-addestramento, ad esempio, di robot o auto a guida autonoma.
  • Cosmos Transfer applica il trasferimento di stili multi-controllo, modificando l'illuminazione e gli ambienti, su video basati sulla fisica, spesso creati in simulatori come NVIDIA Omniverse.
  • Cosmos Reason risponde alle query di testo ragionando sugli input di video e immagini.

Cosmos Reason può generare prompt di testo nuovi e diversi da un video iniziale per Cosmos Predict, o esaminare e annotare i dati sintetici generati da Cosmos Predict e Cosmos Transfer.

Omniverse crea simulazioni 3D realistiche di attività del mondo reale utilizzando diverse API generative, SDK e la tecnologia di rendering NVIDIA RTX.

Gli sviluppatori possono immettere le simulazioni Omniverse come video di istruzioni nei modelli Cosmos Transfer per generare dati sintetici fotorealistici controllabili.

Insieme, Omniverse fornisce ambienti di simulazione pre- e post-addestramento, mentre Cosmos fornisce modelli di fondazione per generare dati video e addestrare i modelli di IA fisica.

Scopri di più su NVIDIA Omniverse.