Descubre una colección de flujos de trabajo de referencia que utilizan modelos de lenguaje de visión para ofrecer capacidades de percepción visual avanzadas e interactivas a una amplia gama de sectores.
Cargas de trabajo
Visión informática/análisis de video
Sectores
Comercio minorista/Productos de consumo envasados
Fabricación
Ciudades/espacios inteligentes
Sanidad y biociencias
Objetivo del negocio
Retorno de inversión
Innovación
Descripción
Las aplicaciones de análisis de vídeo tradicionales y sus flujos de trabajo de desarrollo suelen basarse en modelos limitados de función fija que están diseñados para detectar e identificar solo un conjunto selecto de objetos predefinidos. Con la IA generativa y los modelos básicos, ahora puedes crear aplicaciones con menos modelos que tengan una percepción increíblemente compleja y amplia y una rica comprensión contextual. Esta nueva generación de modelos de lenguaje de visión (VLM), como NVIDIA Cosmos™ Reason, está dando lugar a agentes de IA para análisis de vídeo inteligentes y potentes
Un agente de IA de análisis de vídeo puede ver, razonar y actuar, ya que combina modalidades de visión y lenguaje para comprender una amplia gama de preguntas o indicaciones en lenguaje natural aplicadas a una transmisión de vídeo grabada o en directo. Esta comprensión más profunda del contenido de vídeo permite interpretaciones más precisas y significativas, mejorando la funcionalidad de las aplicaciones de análisis de vídeo y el análisis de escenarios del mundo real. Estos agentes prometen desbloquear información y posibilidades completamente nuevas para la automatización.
Los agentes de IA para análisis de vídeo altamente perceptivos, precisos e interactivos se implementarán en fábricas, almacenes, tiendas minoristas, aeropuertos, intersecciones de tráfico, etc. Esto tendrá un impacto enorme en los equipos de operaciones que deseen crear espacios más seguros y tomar mejores decisiones utilizando información más exhaustiva y generada a partir de interacciones naturales. Los gerentes y los equipos de operaciones también se comunicarán con estos agentes usando un lenguaje natural, todo impulsado por IA generativa y VLM con microservicios NVIDIA NIM™ en su núcleo.
Enlaces rápidos
Implementación técnica
El cerebro dentro de cada agente de IA de análisis de vídeo es un VLM que puede ver y razonar. Dos VLM comunes son Cosmos Embed y Cosmos Reason. Ambos se pueden utilizar para aumentar las aplicaciones de visión computarizada actuales con metadatos y resúmenes de contenido enriquecidos.
NVIDIA NIM es un conjunto de microservicios de inferencia acelerada que están optimizados para las GPU NVIDIA e incluyen API estándar del sector, código específico de dominio, motores de inferencia optimizados y tiempo de ejecución empresarial. Proporciona una combinación de VLM, modelos lingüísticos de gran tamaño (LLM) y generación aumentada por recuperación (RAG) para crear un agente de IA de análisis de vídeo que pueda procesar imágenes o vídeos en directo o archivados para extraer información práctica con lenguaje natural. Hemos creado un flujo de trabajo de referencia de un agente de IA para análisis de vídeo que puede probar para acelerar su proceso de desarrollo.
Enlaces rápidos
El NVIDIA Blueprint para la búsqueda y el resumen de vídeos (VSS) facilita la creación y la personalización de agentes de IA de análisis de vídeo con IA generativa, VLM, LLM, RAG y NVIDIA NIM. A los agentes de IA de análisis de vídeo se les asignan tareas mediante lenguaje natural y pueden analizar, interpretar y procesar grandes cantidades de datos de vídeo para proporcionar información crítica que ayude a diversos sectores a optimizar procesos, mejorar la seguridad y reducir los costes.
VSS proporciona componentes modularizados que posibilitan una alta flexibilidad, microservicios acelerados que admiten la inteligencia de vídeo en tiempo real, búsqueda de agentes en diversas representaciones distribuidas (incrustaciones) y capacidades integrales de generación de informes.
VSS también permite una integración fluida de la IA generativa en las canalizaciones de visión pot ordenador existentes, lo cual mejora la inspección, la búsqueda y el análisis con una comprensión multimodal y un razonamiento de cero disparos. VSS se implementa fácilmente desde el perímetro hasta la nube en plataformas que incluyen NVIDIA RTX™ 4500, NVIDIA RTX PRO™ 6000, NVIDIA DGX Spark™ y NVIDIA® Jetson Thor™.
Enlaces rápidos
Preguntas frecuentes
NIM es un conjunto de microservicios fáciles de usar diseñados para implementar, de forma segura y fiable, inferencias de modelos de IA de alto rendimiento en la nube, centros de datos y estaciones de trabajo. Es compatible con una amplia gama de modelos de IA, entre ellos los de la comunidad de código abierto y los modelos básicos de NVIDIA AI, para garantizar una inferencia de IA fluida y escalable, en las instalaciones o en la nube, utilizando las API estándar del sector. Todos los microservicios NIM y las API de vista previa asociadas se pueden encontrar en build.nvidia.com.
Visite build.nvidia.com para crear una cuenta y empezar a explorar los microservicios NIM disponibles. Puede consultar el NVIDIA Cosmos Reason VLM NIM.
Pruebe de forma gratuita el Blueprint de IA de NVIDIA para la búsqueda y el resumen de vídeos.
Todos los usuarios pueden empezar gratis con las API de vista previa en build.nvidia.com. Cada cuenta nueva puede recibir hasta 5000 créditos para probar las API. Para continuar el desarrollo después de que se agoten los créditos, puede implementar los microservicios NIM descargables de forma local en su hardware o en una instancia de la nube. Los desarrolladores también pueden acceder a NIM a través del programa de desarrolladores de NVIDIA. Ver los detalles en estas preguntas frecuentes.
NVIDIA NIM es gratuito para que los desarrolladores lo prueben. Para pasar a producción, los microservicios NIM descargables requieren una licencia de NVIDIA AI Enterprise. Para obtener más información, visite esta página.
El foro de desarrolladores de NIM es el mejor lugar para hacer preguntas e interactuar con nuestra comunidad de desarrolladores. Puede acceder a los foros aquí.
Explora el flujo de trabajo de referencia impulsado por múltiples modelos de lenguaje visual para crear fácilmente tu agente de IA visual.
Aproveche la potencia del blueprint de VSS para implementar óptimamente agentes de IA, desde el perímetro hasta la nube, con un rendimiento escalable en una variada gama de GPU.