Agentes de IA para análisis de video

Los agentes de IA para análisis de vídeo son asistentes con tecnología de IA que pueden ver, razonar y actuar en función de transmisiones de vídeo en directo o grabadas. Utilizan modelos de lenguaje de visión y modelos lingüísticos de gran tamaño para ayudar a buscar, resumir y comprender el vídeo a través de lenguaje natural.

Cargas de trabajo

Visión computarizada/análisis de vídeo

Sectores

Fabricación
Ciudades inteligentes/espacios inteligentes
Sector minorista/Bienes de consumo envasados
Medios de comunicación y entretenimiento
Sector sanitario y biociencias

Objetivo comercial

Retorno de inversión
Innovación

Descripción

¿Cómo mejoran los agentes de IA en comparación con el análisis de vídeo tradicional?

Las aplicaciones de análisis de vídeo tradicionales y sus flujos de trabajo de desarrollo suelen basarse en modelos limitados de función fija que están diseñados para ver e identificar solo un conjunto selecto de objetos predefinidos. Con la IA generativa y los modelos básicos, ahora puedes crear aplicaciones con menos modelos que tengan una percepción increíblemente compleja y amplia y una rica comprensión contextual. Esta nueva generación de modelos de lenguaje de visión (VLM), como NVIDIA Cosmos™, está dando lugar a agentes de IA para análisis de vídeo inteligentes y potentes.

¿Qué es un agente de IA para análisis de vídeo?

Un agente de IA de análisis de vídeo puede ver, razonar y actuar, ya que combina modalidades de visión y lenguaje para comprender una amplia gama de preguntas o indicaciones en lenguaje natural aplicadas a una transmisión de vídeo grabada o en directo. Esta comprensión más profunda del contenido de vídeo permite interpretaciones más precisas y significativas, mejorando la funcionalidad de las aplicaciones de análisis de vídeo y el análisis de escenarios del mundo real. Estos agentes prometen desbloquear información y posibilidades completamente nuevas para la automatización.

¿Dónde se implementan los agentes de IA de análisis de vídeo?

Los agentes de IA para análisis de vídeo altamente perceptivos, precisos e interactivos se implementarán en fábricas, almacenes, tiendas minoristas, aeropuertos, intersecciones de tráfico, etc. Esto tendrá un impacto enorme en los equipos de operaciones que deseen crear espacios más seguros y tomar mejores decisiones utilizando información más exhaustiva y generada a partir de interacciones naturales. Los gerentes y los equipos de operaciones también se comunicarán con estos agentes usando un lenguaje natural, todo impulsado por IA generativa y VLM con microservicios NVIDIA NIM™ en su núcleo.

Cree agentes de IA para análisis de vídeo

Explore el flujo de trabajo de referencia, impulsado por múltiples modelos de lenguaje visual, y cree fácilmente su agente para análisis de vídeo.


Implementación técnica

Desarrolle con NVIDIA Cosmos

Cree aplicaciones de XR multimodales en tiempo real

Descubra cómo utilizar NVIDIA AI Blueprint para la búsqueda y el resumen de vídeos a fin de admitir audio en un entorno XR.

El cerebro dentro de cada agente de IA de análisis de vídeo es un VLM que puede ver y razonar. Dos VLM comunes son NVIDIA Cosmos 3 y Cosmos Embed. Ambos se pueden utilizar para aumentar las aplicaciones de visión computarizada actuales con metadatos y resúmenes de contenido enriquecidos.  

NVIDIA NIM es un conjunto de microservicios de inferencia acelerada que están optimizados para las GPU NVIDIA e incluyen API estándar del sector, código específico de dominio, motores de inferencia optimizados y tiempo de ejecución empresarial. Proporciona una combinación de VLM, modelos lingüísticos de gran tamaño (LLM) y generación aumentada por recuperación (RAG) para crear un agente de IA de análisis de vídeo que pueda procesar imágenes o vídeos en directo o archivados para extraer información práctica con lenguaje natural. Hemos creado un flujo de trabajo de referencia de un agente de IA para análisis de vídeo que puede probar para acelerar su proceso de desarrollo.

Cree agentes de IA con el blueprint y las habilidades de NVIDIA Metropolis VSS

El NVIDIA Metropolis Blueprint para la búsqueda y el resumen de vídeos (VSS) facilita la creación y la personalización de agentes de IA de análisis de vídeo con IA generativa, VLM, LLM, RAG y NVIDIA NIM. A los agentes de IA de análisis de vídeo se les asignan tareas mediante lenguaje natural y pueden analizar, interpretar y procesar grandes cantidades de datos de vídeo para proporcionar información crítica que ayude a diversos sectores a optimizar procesos, mejorar la seguridad y reducir los costes.

VSS proporciona componentes modularizados que posibilitan una alta flexibilidad, microservicios acelerados que admiten la inteligencia de vídeo en tiempo real, búsqueda por fusión agéntica en diversas representaciones y capacidades integrales de generación de informes. También proporciona habilidades y herramientas de agente que permiten a los desarrolladores crear agentes de IA para análisis de vídeo con indicaciones simples de lenguaje natural y agentes de codificación.

VSS también permite la integración sin problemas de la IA generativa en los procesos de visión por ordenador existentes, mejorando la inspección, la búsqueda y el análisis con comprensión multimodal y razonamiento de cero disparos. VSS se implementa fácilmente desde el perímetro hasta la nube en plataformas que incluyen NVIDIA RTX™ 4500, NVIDIA RTX PRO™ 6000, NVIDIA DGX Spark™ y NVIDIA® Jetson Thor™.

Mejore la precisión con las habilidades de agentes de generación de datos sintéticos para el ajuste preciso de modelos

Los enfoques tradicionales para personalizar modelos para agentes de IA de análisis de vídeo eran lineales y lentos (recopilar vídeo, etiquetar fotogramas, entrenar, evaluar y repetir), con la intervención de un ser humano en cada paso y meses para lograr una precisión aceptable. Los enfoques modernos rompen este ciclo al permitir a los agentes de codificación mejorar de forma iterativa el rendimiento de VLM y los modelos base de visión en función de los objetivos.

Ajuste los modelos de lenguaje de visión con las habilidades de agente de NVIDIA TAO. 

NVIDIA TAO es un conjunto de habilidades y herramientas de agentes para ajustar con precisión modelos de IA de visión con indicaciones de lenguaje natural. Los agentes de codificación utilizan estas herramientas y habilidades para alcanzar de forma autónoma los objetivos de precisión de modelos evaluando de forma iterativa la precisión de modelos, determinando los datos de entrenamiento precisos necesarios y, a continuación, extrayendo datos existentes o generando sintéticamente los datos necesarios.

Resuelva los desafíos de datos de entrenamiento con las habilidades de agentes para la generación de datos sintéticos.

Cuando los datos de entrenamiento son limitados, los desarrolladores pueden generar rápidamente datos sintéticos de defectos para inspección visual o aumentar vídeos para diferentes escenarios, como condiciones meteorológicas, iluminación y mucho más.


Preguntas frecuentes

Sí, ahora puede crear agentes de IA para análisis de vídeo más rápido a partir de simples indicaciones de lenguaje natural utilizando las habilidades de VSS con agentes de codificación como Codex y Claude. Explore un conjunto de habilidades de VSS en github

Un NIM es un conjunto de microservicios fáciles de usar diseñados para implementar, de forma segura y fiable, inferencias de modelos de IA de alto rendimiento en la nube, centros de datos y estaciones de trabajo. Es compatible con una amplia gama de modelos de IA, entre ellos los de la comunidad de código abierto y los modelos básicos de NVIDIA AI, para garantizar una inferencia de IA fluida y escalable, en las instalaciones o en la nube, utilizando las API estándar del sector. Todos los microservicios NIM y las API de vista previa asociadas se pueden encontrar en build.nvidia.com.

Visite build.nvidia.com para empezar a explorar el Blueprint de NVIDIA Metropolis VSS y los microservicios NIM disponibles, como NVIDIA Cosmos Reason 2 VLM NIM. El Cosmos 3 NIM estará disponible próximamente. 

Todos los usuarios pueden empezar gratis con las API de vista previa en build.nvidia.com. Cada cuenta nueva puede recibir hasta 5000 créditos para probar las API. Para continuar el desarrollo después de que se agoten los créditos, puede implementar los microservicios NIM descargables de forma local en su hardware o en una instancia de la nube. Los desarrolladores también pueden acceder a NIM a través del programa de desarrolladores de NVIDIA. Ver los detalles en estas preguntas frecuentes.

NVIDIA NIM es gratuito para que los desarrolladores lo prueben. Para pasar a producción, los microservicios NIM descargables requieren una licencia de NVIDIA AI Enterprise. Para obtener más información, visite esta página.

El foro de desarrolladores de NIM es el mejor lugar para hacer preguntas e interactuar con nuestra comunidad de desarrolladores. Puede acceder a los foros aquí.

Empezar

Cree agentes de IA para análisis de vídeo

Explore el flujo de trabajo de referencia, impulsado por múltiples modelos de lenguaje visual, para crear fácilmente su agente de IA para análisis de vídeo.

Desarrolladores en acción : Cree agentes de IA para análisis de vídeo

Cree un agente de búsqueda y resumen de vídeos

Descubra el Blueprint de NVIDIA AI para búsqueda y resumen de vídeo, que integra VLM, LLM y RAG complejos con microservicios compatibles.

Desarrolle agentes de IA de análisis de vídeo para el perímetro

Explore los agentes de IA para análisis de vídeo basados en VLM en el perímetro utilizando los servicios de la plataforma NVIDIA Jetson. 

Cree agentes de IA avanzados para análisis de vídeo

Descubra la mejora más reciente del blueprint de NVIDIA AI para búsqueda y resumen de vídeos, ahora disponible de forma general.

Cree aplicaciones de XR multimodales en tiempo real

Descubra cómo utilizar NVIDIA AI Blueprint para la búsqueda y el resumen de vídeos a fin de admitir audio en un entorno XR.

Implemente agentes de IA desde el perímetro a la nube

Aproveche la potencia del Blueprint de VSS para implementar óptimamente agentes de IA, desde el perímetro hasta la nube, con un rendimiento escalable en una variada gama de GPU.

GPU NVIDIA RTX PRO 6000 de la serie Blackwell

Las GPU de la serie NVIDIA RTX PRO 6000 Blackwell aceleran la IA física al ejecutar todas las cargas de trabajo de desarrollo de robots, incluida la generación de datos sintéticos, el aprendizaje de robots y la simulación.

NVIDIA Jetson Thor

Acelere el futuro de la IA física y la robótica con los módulos de la serie NVIDIA Jetson Thor™ que ofrecen hasta 2070 TERAFLOPS FP4 de computación de IA y 128 GB de memoria, todo en un factor de forma compacto. 

NVIDIA DGX Spark

DGX Spark lleva la potencia de NVIDIA Grace Blackwell a los ordenadores de sobremesa de los desarrolladores. El Superchip NVIDIA GB10, combinado con 128 GB de memoria del sistema unificado, permite a los investigadores de IA, los científicos de datos y los estudiantes trabajar con modelos de IA a nivel local con hasta 200 000 millones de parámetros.

NVIDIA Jetson Thor

Acelere el futuro de la IA física y la robótica con los módulos de la serie NVIDIA Jetson Thor, que ofrecen hasta 2070 TERAFLOPS FP4 de computación de IA y 128 GB de memoria, todo en un factor de forma compacto.

Casos de éxito relacionados