Los agentes de IA para análisis de vídeo son asistentes con tecnología de IA que pueden ver, razonar y actuar en función de transmisiones de vídeo en directo o grabadas. Utilizan modelos de lenguaje de visión y modelos lingüísticos de gran tamaño para ayudar a buscar, resumir y comprender el vídeo a través de lenguaje natural.
Cargas de trabajo
Visión computarizada/análisis de vídeo
Sectores
Fabricación
Ciudades inteligentes/espacios inteligentes
Sector minorista/Bienes de consumo envasados
Medios de comunicación y entretenimiento
Sector sanitario y biociencias
Objetivo comercial
Retorno de inversión
Innovación
Descripción
Las aplicaciones de análisis de vídeo tradicionales y sus flujos de trabajo de desarrollo suelen basarse en modelos limitados de función fija que están diseñados para ver e identificar solo un conjunto selecto de objetos predefinidos. Con la IA generativa y los modelos básicos, ahora puedes crear aplicaciones con menos modelos que tengan una percepción increíblemente compleja y amplia y una rica comprensión contextual. Esta nueva generación de modelos de lenguaje de visión (VLM), como NVIDIA Cosmos™, está dando lugar a agentes de IA para análisis de vídeo inteligentes y potentes.
Un agente de IA de análisis de vídeo puede ver, razonar y actuar, ya que combina modalidades de visión y lenguaje para comprender una amplia gama de preguntas o indicaciones en lenguaje natural aplicadas a una transmisión de vídeo grabada o en directo. Esta comprensión más profunda del contenido de vídeo permite interpretaciones más precisas y significativas, mejorando la funcionalidad de las aplicaciones de análisis de vídeo y el análisis de escenarios del mundo real. Estos agentes prometen desbloquear información y posibilidades completamente nuevas para la automatización.
Los agentes de IA para análisis de vídeo altamente perceptivos, precisos e interactivos se implementarán en fábricas, almacenes, tiendas minoristas, aeropuertos, intersecciones de tráfico, etc. Esto tendrá un impacto enorme en los equipos de operaciones que deseen crear espacios más seguros y tomar mejores decisiones utilizando información más exhaustiva y generada a partir de interacciones naturales. Los gerentes y los equipos de operaciones también se comunicarán con estos agentes usando un lenguaje natural, todo impulsado por IA generativa y VLM con microservicios NVIDIA NIM™ en su núcleo.
Enlaces rápidos
Implementación técnica
El cerebro dentro de cada agente de IA de análisis de vídeo es un VLM que puede ver y razonar. Dos VLM comunes son NVIDIA Cosmos 3 y Cosmos Embed. Ambos se pueden utilizar para aumentar las aplicaciones de visión computarizada actuales con metadatos y resúmenes de contenido enriquecidos.
NVIDIA NIM es un conjunto de microservicios de inferencia acelerada que están optimizados para las GPU NVIDIA e incluyen API estándar del sector, código específico de dominio, motores de inferencia optimizados y tiempo de ejecución empresarial. Proporciona una combinación de VLM, modelos lingüísticos de gran tamaño (LLM) y generación aumentada por recuperación (RAG) para crear un agente de IA de análisis de vídeo que pueda procesar imágenes o vídeos en directo o archivados para extraer información práctica con lenguaje natural. Hemos creado un flujo de trabajo de referencia de un agente de IA para análisis de vídeo que puede probar para acelerar su proceso de desarrollo.
Enlaces rápidos
El NVIDIA Metropolis Blueprint para la búsqueda y el resumen de vídeos (VSS) facilita la creación y la personalización de agentes de IA de análisis de vídeo con IA generativa, VLM, LLM, RAG y NVIDIA NIM. A los agentes de IA de análisis de vídeo se les asignan tareas mediante lenguaje natural y pueden analizar, interpretar y procesar grandes cantidades de datos de vídeo para proporcionar información crítica que ayude a diversos sectores a optimizar procesos, mejorar la seguridad y reducir los costes.
VSS proporciona componentes modularizados que posibilitan una alta flexibilidad, microservicios acelerados que admiten la inteligencia de vídeo en tiempo real, búsqueda por fusión agéntica en diversas representaciones y capacidades integrales de generación de informes. También proporciona habilidades y herramientas de agente que permiten a los desarrolladores crear agentes de IA para análisis de vídeo con indicaciones simples de lenguaje natural y agentes de codificación.
VSS también permite la integración sin problemas de la IA generativa en los procesos de visión por ordenador existentes, mejorando la inspección, la búsqueda y el análisis con comprensión multimodal y razonamiento de cero disparos. VSS se implementa fácilmente desde el perímetro hasta la nube en plataformas que incluyen NVIDIA RTX™ 4500, NVIDIA RTX PRO™ 6000, NVIDIA DGX Spark™ y NVIDIA® Jetson Thor™.
Enlaces rápidos
Los enfoques tradicionales para personalizar modelos para agentes de IA de análisis de vídeo eran lineales y lentos (recopilar vídeo, etiquetar fotogramas, entrenar, evaluar y repetir), con la intervención de un ser humano en cada paso y meses para lograr una precisión aceptable. Los enfoques modernos rompen este ciclo al permitir a los agentes de codificación mejorar de forma iterativa el rendimiento de VLM y los modelos base de visión en función de los objetivos.
Ajuste los modelos de lenguaje de visión con las habilidades de agente de NVIDIA TAO.
NVIDIA TAO es un conjunto de habilidades y herramientas de agentes para ajustar con precisión modelos de IA de visión con indicaciones de lenguaje natural. Los agentes de codificación utilizan estas herramientas y habilidades para alcanzar de forma autónoma los objetivos de precisión de modelos evaluando de forma iterativa la precisión de modelos, determinando los datos de entrenamiento precisos necesarios y, a continuación, extrayendo datos existentes o generando sintéticamente los datos necesarios.
Resuelva los desafíos de datos de entrenamiento con las habilidades de agentes para la generación de datos sintéticos.
Cuando los datos de entrenamiento son limitados, los desarrolladores pueden generar rápidamente datos sintéticos de defectos para inspección visual o aumentar vídeos para diferentes escenarios, como condiciones meteorológicas, iluminación y mucho más.
Enlaces rápidos
Preguntas frecuentes
Sí, ahora puede crear agentes de IA para análisis de vídeo más rápido a partir de simples indicaciones de lenguaje natural utilizando las habilidades de VSS con agentes de codificación como Codex y Claude. Explore un conjunto de habilidades de VSS en github.
Un NIM es un conjunto de microservicios fáciles de usar diseñados para implementar, de forma segura y fiable, inferencias de modelos de IA de alto rendimiento en la nube, centros de datos y estaciones de trabajo. Es compatible con una amplia gama de modelos de IA, entre ellos los de la comunidad de código abierto y los modelos básicos de NVIDIA AI, para garantizar una inferencia de IA fluida y escalable, en las instalaciones o en la nube, utilizando las API estándar del sector. Todos los microservicios NIM y las API de vista previa asociadas se pueden encontrar en build.nvidia.com.
Visite build.nvidia.com para empezar a explorar el Blueprint de NVIDIA Metropolis VSS y los microservicios NIM disponibles, como NVIDIA Cosmos Reason 2 VLM NIM. El Cosmos 3 NIM estará disponible próximamente.
Todos los usuarios pueden empezar gratis con las API de vista previa en build.nvidia.com. Cada cuenta nueva puede recibir hasta 5000 créditos para probar las API. Para continuar el desarrollo después de que se agoten los créditos, puede implementar los microservicios NIM descargables de forma local en su hardware o en una instancia de la nube. Los desarrolladores también pueden acceder a NIM a través del programa de desarrolladores de NVIDIA. Ver los detalles en estas preguntas frecuentes.
NVIDIA NIM es gratuito para que los desarrolladores lo prueben. Para pasar a producción, los microservicios NIM descargables requieren una licencia de NVIDIA AI Enterprise. Para obtener más información, visite esta página.
El foro de desarrolladores de NIM es el mejor lugar para hacer preguntas e interactuar con nuestra comunidad de desarrolladores. Puede acceder a los foros aquí.
Explore el flujo de trabajo de referencia, impulsado por múltiples modelos de lenguaje visual, para crear fácilmente su agente de IA para análisis de vídeo.
Aproveche la potencia del Blueprint de VSS para implementar óptimamente agentes de IA, desde el perímetro hasta la nube, con un rendimiento escalable en una variada gama de GPU.