Scopri una raccolta di flussi di lavoro di riferimento che utilizzano modelli linguistici visivi per offrire capacità di percezione visiva ricca e interattiva a una vasta gamma di settori.
Carichi di lavoro
Computer vision /Analisi video
Settori
Vendita al dettaglio/ beni di consumo confezionati
Produzione industriale
Città/Spazi intelligenti
Sanità e bioscienze
Obiettivo aziendale
Ritorno sugli investimenti
Innovazione
Panoramica
Le applicazioni tradizionali di analisi video e i relativi flussi di lavoro di sviluppo sono tipicamente basati su modelli a funzione fissa e limitata, progettati per rilevare e identificare solo un insieme selezionato di oggetti predefiniti. Con l'IA generativa e i modelli di base, ora puoi creare applicazioni utilizzando meno modelli, ma con una percezione incredibilmente complessa e ampia, nonché una ricca comprensione contestuale. Questa nuova generazione di modelli linguistici visivi (VLM), come NVIDIA Cosmos™ Reason, sta dando vita ad agenti IA per l'analisi video intelligenti e potenti
Un agente IA per l'analisi video può vedere, ragionare e agire combinando le modalità visive e linguistiche per comprendere una vasta gamma di domande o prompt in linguaggio naturale applicate a uno stream video registrato o dal vivo. Questa comprensione più approfondita dei contenuti video consente interpretazioni più precise e significative, migliorando la funzionalità delle applicazioni di analisi video e l'analisi di scenari del mondo reale. Questi agenti promettono di ottenere informazioni e fornire possibilità di automazione completamente nuove.
Gli agenti IA per l'analisi video altamente percettiva, accurata e interattiva verranno distribuiti in tutte le fabbriche, i magazzini, i negozi al dettaglio, gli aeroporti, gli incroci stradali e altro ancora. Ciò avrà un impatto enorme sui team operativi che cercano di rendere gli spazi più sicuri e prendere decisioni migliori utilizzando informazioni più ricche generate dalle interazioni naturali. I manager e i team operativi comunicheranno inoltre con questi agenti in linguaggio naturale, tutti basati sull'IA generativa e sui VLM con i microservizi NVIDIA NIM™ al centro.
Collegamenti rapidi
Implementazione tecnica
Il cervello all'interno di ogni agente IA per l'analisi video è un VLM in grado di vedere e ragionare. Due VLM comuni sono Cosmos Embed e Cosmos Reason. Entrambi possono essere utilizzati per aumentare le attuali applicazioni di visione artificiale con metadati avanzati e riepiloghi dei contenuti.
NVIDIA NIM è un set di microservizi di inferenza accelerati ottimizzati per le GPU NVIDIA e include API standard di settore, codice specifico per dominio, motori di inferenza ottimizzati e runtime aziendale. Fornisce una combinazione di VLM, modelli linguistici di grandi dimensioni (LLM) e Retrieval-Augmented Generation (RAG) per creare un agente IA per l'analisi video in grado di elaborare immagini o video dal vivo o archiviati per estrarre informazioni utili utilizzando il linguaggio naturale. Abbiamo creato un flusso di lavoro di riferimento di un agente IA per l'analisi video da provare per accelerare il processo di sviluppo.
Collegamenti rapidi
Il Blueprint NVIDIA per la ricerca e il riepilogo video (VSS) semplifica la creazione e la personalizzazione di agenti IA per l'analisi video utilizzando l'IA generativa, VLM, LLM, RAG e NVIDIA NIM. Gli agenti IA di analisi video ricevono attività attraverso il linguaggio naturale e possono analizzare, interpretare ed elaborare grandi quantità di dati video per fornire informazioni critiche che aiutano una vasta gamma di settori a ottimizzare i processi, migliorare la sicurezza e ridurre i costi.
VSS fornisce componenti modularizzati che consentono un'elevata flessibilità, microservizi accelerati che supportano l'intelligenza video in tempo reale, la ricerca agentica su diversi embedding e capacità complete di generazione di report.
VSS consente inoltre l'integrazione fluida dell'IA generativa nelle pipeline di visione artificiale esistenti, migliorando l'ispezione, la ricerca e l'analisi con la comprensione multimodale e il ragionamento zero-shot. VSS è facilmente distribuito dall'edge al cloud su piattaforme tra cui NVIDIA RTX™ 4500, NVIDIA RTX PRO™ 6000, NVIDIA DGX Spark™ e NVIDIA® Jetson Thor™.
Collegamenti rapidi
FAQ
NVIDIA NIM è un set di microservizi di facile utilizzo progettati per l'implementazione sicura e affidabile di inferenze di modelli di IA ad alte prestazioni su cloud, data center e workstation. Supporta un'ampia gamma di modelli IA, tra cui i modelli di community open source e della NVIDIA AI Foundation, per garantire un'inferenza IA semplice e scalabile, on-premise o nel cloud, utilizzando le API standard di settore. Tutti i microservizi NIM e le API di anteprima associate sono disponibili all'indirizzo build.nvidia.com.
Visita build.nvidia.com per creare un account e iniziare a esplorare i microservizi NIM disponibili. Puoi dare un'occhiata a NVIDIA Cosmos Reason VLM NIM.
Prova gratuitamente NVIDIA AI Blueprint per la ricerca e il riepilogo video.
Tutti gli utenti possono iniziare gratuitamente con le API di anteprima su build.nvidia.com. Ogni nuovo account può ricevere fino a 5.000 crediti per provare le API. Per continuare lo sviluppo dopo l'esaurimento dei crediti, è possibile distribuire i microservizi NIM scaricabili a livello locale sull'hardware o su un'istanza cloud. Gli sviluppatori possono inoltre accedere a NIM tramite il programma per sviluppatori NVIDIA. Scopri di più nelle domande frequenti.
NVIDIA NIM è gratuito per gli sviluppatori. Per andare in produzione, i microservizi NIM scaricabili richiedono una licenza NVIDIA AI Enterprise. Per saperne di più, visita questa pagina.
Il forum per sviluppatori NIM è il posto migliore per porre domande e interagire con la nostra community di sviluppatori. Puoi accedere ai forum qui.
Esplora il flusso di lavoro di riferimento, alimentato da diversi modelli linguistici visivi, per creare facilmente il tuo agente di IA visiva.
Sfrutta la potenza del blueprint VSS per distribuire agevolmente agenti IA dall'edge al cloud, con prestazioni scalabili su una vasta gamma di GPU.