Agenti di IA visiva basati sull'IA generativa

Agenti di IA visiva basati sull'IA generativa

Scopri una raccolta di flussi di lavoro di riferimento che utilizzano modelli linguistici visivi per offrire capacità di percezione visiva ricca e interattiva a una vasta gamma di settori.

Carichi di lavoro

Computer vision /Analisi video

Settori

Vendita al dettaglio/ beni di consumo confezionati
Produzione industriale
Città/Spazi intelligenti
Sanità e bioscienze

Obiettivo aziendale

Ritorno sugli investimenti
Innovazione

Prodotti

NVIDIA Metropolis
NVIDIA AI Enterprise

Alimenta una nuova generazione di applicazioni

Le applicazioni tradizionali di analisi video e i relativi flussi di lavoro di sviluppo sono tipicamente basati su modelli a funzione fissa e limitata, progettati per rilevare e identificare solo un insieme selezionato di oggetti predefiniti. Con l'IA generativa e i modelli di base, ora puoi creare applicazioni utilizzando meno modelli, ma con una percezione incredibilmente complessa e ampia, nonché una ricca comprensione contestuale. Questa nuova generazione di modelli linguistici visivi (VLM) sta dando vita a potenti e intelligenti agenti di IA visiva.

Che cos'è un agente di IA visiva?

Un agente IA di analisi video può combinare sia le modalità visive che linguistiche per comprendere i prompt in linguaggio naturale e fornire risposte a domande visive. Ad esempio, può rispondere a una vasta gamma di domande in linguaggio naturale applicabili a un flusso video registrato o in diretta. Questa comprensione più approfondita dei contenuti video consente interpretazioni più precise e significative, migliorando la funzionalità delle applicazioni di analisi video e l'analisi di scenari del mondo reale. Questi agenti promettono di ottenere informazioni e fornire possibilità di automazione completamente nuove.

Ottimizza ogni operazione industriale

Agenti di IA visiva altamente percettivi, precisi e interattivi saranno implementati nelle nostre fabbriche, magazzini, negozi al dettaglio, aeroporti, incroci stradali e molto altro. Ciò avrà un impatto enorme sui team operativi che cercano di prendere decisioni migliori utilizzando approfondimenti più ricchi generati da interazioni naturali. I manager e i team operativi potranno dialogare con questi agenti in linguaggio naturale, grazie all'AI generativa e ai grandi modelli linguistici visivi, alimentati dai microservizi NVIDIA NIM™.

Sviluppa con NVIDIA NIM

NVIDIA NIM è un insieme di microservizi di inferenza che include API standard di settore, codice specifico per i vari domini, motori di inferenza ottimizzati e un runtime aziendale. Fornisce diversi modelli linguistici visivi per creare il tuo agente di IA visiva, in grado di elaborare immagini o video in diretta o archiviati per estrarre informazioni utili utilizzando il linguaggio naturale. Abbiamo creato un flusso di lavoro di riferimento per un agente di IA visiva che puoi provare per accelerare il tuo processo di sviluppo.

Crea agenti IA con NVIDIA AI Blueprint

NVIDIA AI Blueprint per la ricerca e il riepilogo di video (VSS) semplifica la creazione e la personalizzazione di agenti IA di analisi video, il tutto basato sull'IA generativa, su modelli linguistici visivi (VLM), modelli linguistici di grandi dimensioni (LLM) e NVIDIA NIM. Gli agenti IA di analisi video ricevono compiti in linguaggio naturale e sono in grado di elaborare grandi quantità di dati video per fornire informazioni critiche che aiutano diversi settori a ottimizzare i processi, migliorare la sicurezza e ridurre i costi.

Gli agenti IA creati sulla base del blueprint possono analizzare, interpretare ed elaborare i dati video su vasta scala, producendo sintesi video fino a 200 volte più velocemente rispetto all'analisi manuale dei video. Il blueprint è in grado di accelerare lo sviluppo di agenti IA riunendo vari modelli e servizi di IA generativa, oltre a offrire la massima flessibilità grazie a un'ampia gamma di VLM/LLM di NVIDIA e di terze parti, oltre a opzioni di distribuzione ottimizzate dall'edge al cloud.

Crea agenti periferici con Jetson Platform Services

Gli sviluppatori possono creare agenti di IA visiva potenziati dalla piattaforma di IA Edge NVIDIA Jetson™ utilizzando la nuova funzionalità di NVIDIA JetPack™: Jetson Platform Services. L'applicazione di IA generativa funziona interamente su un dispositivo NVIDIA Jetson Orin™, capace di rilevare eventi per generare avvisi e facilitare sessioni interattive di domande e risposte.

NVIDIA NIM è un set di microservizi di facile utilizzo progettati per l'implementazione sicura e affidabile di inferenze di modelli di IA ad alte prestazioni su cloud, data center e workstation. Supporta un'ampia gamma di modelli IA, tra cui i modelli di community open source e NVIDIA AI Foundation, per garantire un'inferenza IA semplice e scalabile, on-premise o nel cloud, utilizzando le API standard di settore. Tutti i microservizi NIM e le API di anteprima associate sono disponibili all'indirizzo build.nvidia.com.

Per iniziare a utilizzare i microservizi NIM e NVIDIA AI Blueprints, visita il sito build.nvidia.com per creare un account e iniziare a scoprire i microservizi NIM disponibili. Puoi verificare i NIM VLM disponibili qui.

Prova gratuitamente NVIDIA AI Blueprint per la ricerca e il riepilogo di video. 

Tutti gli utenti possono iniziare gratuitamente con le API di anteprima su build.nvidia.com. Ogni nuovo account può ricevere fino a 5.000 crediti per provare le API. Per continuare lo sviluppo dopo l'esaurimento dei crediti, è possibile distribuire i microservizi NIM scaricabili a livello locale sull'hardware o su un'istanza cloud. Gli sviluppatori possono inoltre accedere a NIM tramite il programma per sviluppatori NVIDIA. Scopri di più nelle domande frequenti.

NVIDIA NIM è gratuito per gli sviluppatori. Per andare in produzione, i microservizi NIM scaricabili richiedono una licenza NVIDIA AI Enterprise. Per saperne di più, visita questa pagina.

Il forum per sviluppatori NIM è il posto migliore per porre domande e interagire con la nostra community di sviluppatori. Puoi accedere ai forum qui. 

Crea agenti di IA visiva

Esplora il flusso di lavoro di riferimento, alimentato da diversi modelli linguistici visivi, per creare facilmente il tuo agente di IA visiva.

Sviluppatori in azione

Cerca e riepiloga grandi volumi di dati visivi

Scopri come i partner globali stanno utilizzando i microservizi NVIDIA NIM e NVIDIA AI Blueprint  oggi stesso per promuovere l'automazione dell'infrastruttura e creare spazi più intelligenti.

Creare un agente per la ricerca e il riepilogo di video

Scopri NVIDIA AI Blueprint per la ricerca e il riepilogo video, integrando VLM, LLM e RAG complessi con microservizi di supporto.

Sviluppare agenti AI per l'analisi video per l'edge

Esplora gli agenti IA per l'analisi video basati su VLM nell'edge utilizzando NVIDIA Jetson Platform Services. 

Webinar: Sfruttare l'analisi video con gli agenti IA

Scopri come sviluppare e ottimizzare agenti IA che analizzano il video e forniscono informazioni fondamentali utilizzando i più recenti modelli linguistici visivi.