Descubre una colección de flujos de trabajo de referencia que utilizan modelos de lenguaje de visión para ofrecer capacidades de percepción visual avanzadas e interactivas a una amplia gama de sectores.
Cargas de trabajo
Visión informática/análisis de video
Sectores
Comercio minorista/Productos de consumo envasados
Fabricación
Ciudades/espacios inteligentes
Sanidad y biociencias
Objetivo del negocio
Retorno de inversión
Innovación
Descripción
Las aplicaciones de análisis de vídeo tradicionales y sus flujos de trabajo de desarrollo suelen basarse en modelos limitados de función fija que están diseñados para detectar e identificar solo un conjunto selecto de objetos predefinidos. Con la IA generativa y los modelos básicos, ahora puedes crear aplicaciones con menos modelos que tengan una percepción increíblemente compleja y amplia y una rica comprensión contextual. Esta nueva generación de modelos de lenguaje de visión (VLM), como NVIDIA Cosmos™ Reason, está dando lugar a agentes de IA para análisis de vídeo inteligentes y potentes
Un agente de IA de análisis de vídeo puede combinar tanto modalidades de visión como de lenguaje para comprender las indicaciones de lenguaje natural y dar respuestas visuales a preguntas. Por ejemplo, responder a una amplia gama de preguntas en lenguaje natural que se pueden aplicar en relación a una transmisión de vídeo ya sea grabada o en vivo. Esta comprensión más profunda del contenido de vídeo permite interpretaciones más precisas y significativas, mejorando la funcionalidad de las aplicaciones de análisis de vídeo y el análisis de escenarios del mundo real. Estos agentes prometen desbloquear información y posibilidades completamente nuevas para la automatización.
Los agentes de IA para análisis de vídeo altamente perceptivos, precisos e interactivos se implementarán en fábricas, almacenes, tiendas minoristas, aeropuertos, intersecciones de tráfico, etc. Esto tendrá un impacto enorme en los equipos de operaciones que deseen crear espacios más seguros y tomar mejores decisiones utilizando información más exhaustiva y generada a partir de interacciones naturales. Los gerentes y los equipos de operaciones también se comunicarán con estos agentes usando un lenguaje natural, todo impulsado por IA generativa y VLM con microservicios NVIDIA NIM™ en su núcleo.
Enlaces rápidos
Implementación técnica
NVIDIA NIM es un conjunto de microservicios de inferencia que incluye API estándar del sector, código específico de dominio, motores de inferencia optimizados y tiempo de ejecución empresarial. Ofrece una combinación de VLM, LLM y RAG a fin de crear su agente de IA para análisis de vídeo, capaz de procesar imágenes o vídeos, tanto en vivo como archivados, con objeto de extraer información procesable utilizando un lenguaje natural. Hemos creado un flujo de trabajo de referencia de un agente de IA para análisis de vídeo que puede probar para acelerar su proceso de desarrollo.
Enlaces rápidos
The NVIDIA AI Blueprint for video search and summarization (VSS) makes it easy to build and customize video analytics AI agents using generative AI, VLMs, LLMs, and NVIDIA NIM. The video analytics AI agents are given tasks through natural language and can analyze, interpret, and process vast amounts of video data to provide critical insights that help a range of industries optimize processes, improve safety, and cut costs.
VSS permite la integración sin problemas de la IA generativa en los procesos de visión por ordenador existentes, mejorando la inspección, la búsqueda y el análisis con comprensión multimodal y razonamiento de cero disparos. Se puede implementar fácilmente desde el perímetro hasta la nube en plataformas como NVIDIA RTX PRO™ 6000, NVIDIA DGX™ Spark y NVIDIA® Jetson Thor™.
Enlaces rápidos
Los desarrolladores pueden crear agentes visuales de IA con la plataforma de IA en el perímetro NVIDIA Jetson™ utilizando la nueva característica de NVIDIA JetPack™: Jetson Platform Services. La aplicación generativa de IA se ejecuta completamente en un dispositivo NVIDIA Jetson Orin™, capaz de detectar eventos para generar alertas y facilitar sesiones interactivas de preguntas y respuestas.
Enlaces rápidos
Preguntas frecuentes
NIM es un conjunto de microservicios fáciles de usar diseñados para implementar, de forma segura y fiable, inferencias de modelos de IA de alto rendimiento en la nube, centros de datos y estaciones de trabajo. Es compatible con una amplia gama de modelos de IA, entre ellos los de la comunidad de código abierto y los de NVIDIA AI Foundation, para garantizar una inferencia de IA perfecta y escalable, en las instalaciones o en la nube, utilizando API estándar del sector. Todos los microservicios NIM y las API de vista previa asociadas se pueden encontrar en build.nvidia.com.
Visite build.nvidia.com para crear una cuenta y empezar a explorar los microservicios NIM disponibles. Puede consultar el NVIDIA Cosmos Reason VLM NIM.
Pruebe de forma gratuita el Blueprint de IA de NVIDIA para la búsqueda y el resumen de vídeos.
Todos los usuarios pueden empezar gratis con las API de vista previa en build.nvidia.com. Cada cuenta nueva puede recibir hasta 5000 créditos para probar las API. Para continuar el desarrollo después de que se agoten los créditos, puede implementar los microservicios NIM descargables de forma local en su hardware o en una instancia de la nube. Los desarrolladores también pueden acceder a NIM a través del programa de desarrolladores de NVIDIA. Ver los detalles en estas preguntas frecuentes.
NVIDIA NIM es gratuito para que los desarrolladores lo prueben. Para pasar a producción, los microservicios NIM descargables requieren una licencia de NVIDIA AI Enterprise. Para obtener más información, visite esta página.
El foro de desarrolladores de NIM es el mejor lugar para hacer preguntas e interactuar con nuestra comunidad de desarrolladores. Puede acceder a los foros aquí.
Explora el flujo de trabajo de referencia impulsado por múltiples modelos de lenguaje visual para crear fácilmente tu agente de IA visual.
Aproveche la potencia del blueprint de VSS para implementar óptimamente agentes de IA, desde el perímetro hasta la nube, con un rendimiento escalable en una variada gama de GPU.