Agentes de IA Visual Impulsados por IA Generativa

Agentes de IA para Análisis de Video Impulsados por IA Generativa

Descubra una colección de workflows de referencia que utilizan modelos de lenguaje de visión para ofrecer capacidades de percepción visual enriquecidas e interactivas a una variedad de industrias.

Cargas de Trabajo

Visión por Computador / Analítica de Video

Industrias

Ventas Minoristas / Bienes de Consumo Envasados
Manufactura
Ciudades/Espacios Inteligentes
Área de la Salud y Ciencias de la Vida

Objetivo de Negocio

Retorno de la inversión
Innovación

Productos

Metrópolis de NVIDIA
NVIDIA AI Enterprise

Impulse Una Nueva Ola de Aplicaciones

Las aplicaciones de análisis de video tradicionales y sus workflows de desarrollo suelen basarse en modelos limitados de función fija que están diseñados para detectar e identificar solo un conjunto selecto de objetos predefinidos. Con la IA generativa y los modelos básicos, ahora puede crear aplicaciones con menos modelos que tengan una percepción increíblemente compleja y amplia, además de una rica comprensión contextual. Esta nueva generación de modelos de lenguaje de visión (VLM) está dando lugar a agentes visuales de IA inteligentes y potentes.

¿Qué Es un Agente Visual de IA?

Un agente visual de IA puede combinar las modalidades de visión y lenguaje para comprender las indicaciones del lenguaje natural y realizar respuestas visuales a preguntas. Puede, por ejemplo, responder a una amplia gama de preguntas en lenguaje natural que se pueden aplicar a una transmisión de video grabada o en directo. Esta comprensión más profunda del contenido de video permite interpretaciones más precisas y significativas, mediante lo cual mejora la funcionalidad de las aplicaciones de análisis de video y la interpretación de escenarios del mundo real. Estos agentes prometen desbloquear posibilidades de aplicaciones industriales completamente nuevas.

Agilice Todas las Operaciones Industriales

Se desplegarán agentes visuales de IA altamente perceptivos, precisos e interactivos en todas nuestras fábricas, almacenes, tiendas minoristas, aeropuertos, intersecciones de tráfico y más. Esto tendrá un tremendo impacto en los equipos de operaciones que buscan tomar mejores decisiones mediante el uso de información más rica generada a partir de interacciones naturales. Los gerentes y equipos de operaciones se comunicarán con estos agentes en lenguaje natural, todo ello impulsado por IA generativa y grandes modelos de lenguaje de visión con microservicios NVIDIA NIM™ en su núcleo.

Desarrolle con NVIDIA NIM

NVIDIA NIM es un conjunto de microservicios de inferencia que incluye API estándar del sector, código específico del dominio, motores de inferencia optimizados y tiempo de ejecución empresarial. Ofrece múltiples VLM para crear su agente de IA para análisis de video, el cual puede procesar imágenes o videos en vivo o archivados para extraer información procesable utilizando lenguaje natural. Hicimos un workflow de referencia de un agente de IA para análisis de video que puede probar para acelerar su proceso de desarrollo.

NVIDIA AI Blueprint para la Búsqueda y el Resumen de Videos

Los microservicios de NVIDIA VIA son la base de la nube para acelerar el desarrollo de agentes de IA visual impulsados por VLM y NIM, ya sea que se implementen en el edge o en la nube. Un ejemplo es un microservicio de resumen que se utiliza para crear agentes visuales de IA que procesan grandes cantidades de videos y producen resúmenes seleccionados.

Estos microservicios están disponibles para su descarga, y hay más en camino para ayudar a crear nuevos servicios.

Cree Agentes en el Edge con los Servicios de la Plataforma Jetson

Los desarrolladores pueden crear agentes visuales de IA con tecnología de la plataforma de IA en el edge NVIDIA Jetson™ mediante el uso de la nueva función de NVIDIA JetPack™: Jetson Platform Services. La aplicación de IA generativa se ejecuta completamente en un dispositivo NVIDIA Jetson Orin™, que es capaz de detectar eventos para generar alertas y facilitar sesiones interactivas de preguntas y respuestas.

NIM es un conjunto de microservicios fáciles de usar, hechos para la implementación segura y confiable de inferencia de modelos de IA de alto rendimiento en la nube, data centers y workstations. Admite una amplia gama de modelos de IA, incluidos los de la comunidad de código abierto y los de NVIDIA AI Foundation, para garantizar una inferencia de IA escalable y fluida, ya sea en las instalaciones o en la nube, mediante el uso de API estándar de la industria. Todos los microservicios de NIM y las API de vista previa asociadas se pueden encontrar en build.nvidia.com.

Para comenzar a usar los microservicios de NIM y NVIDIA AI Blueprints, visite build.nvidia.com, abra una cuenta y explore los microservicios de NIM disponibles. Puede ver los NIM de VLM disponibles aquí.

Todos los usuarios pueden empezar gratuitamente con las API de vista previa en build.nvidia.com. Cada cuenta nueva puede recibir hasta 5000 créditos para probar las API. Para seguir desarrollando una vez agotados los créditos, puede implementar los microservicios NIM descargables a nivel local, en su hardware, o en una instancia de nube. Los desarrolladores también pueden acceder a NIM a través del Programa para Desarrolladores de NVIDIA. Obtenga más información en esta sección de preguntas frecuentes.

Los microservicios NIM descargables requieren una licencia de NVIDIA AI Enterprise. Puede visitar esta página si desea obtener más información y probarlos de forma gratuita.

El foro para desarrolladores de NIM es el mejor lugar para hacer preguntas e interactuar con nuestra comunidad de desarrolladores. Puede ingresar a los foros aquí.

Cree Agentes Visuales de IA

Explore el workflow de referencia, impulsado por múltiples modelos de lenguaje visual, para crear fácilmente su agente de IA visual.

Desarrolladores en Acción

Busque y Resuma Grandes Volúmenes de Datos Visuales

Vea cómo los socios globales usan los microservicios de NVIDIA NIM y NVIDIA AI Blueprints para avanzar en la automatización de la infraestructura y crear espacios más inteligentes.

Cree Un Agente de Búsqueda y Resumen de Video

Descubra NVIDIA AI Blueprint para la búsqueda y el resumen de video, que integra VLM, LLM y RAG complejos con microservicios compatibles.

Desarrolle Agentes de IA para Análisis de Video en el Edge

Explore los agentes de IA para análisis de video por VLM en el edge mediante los servicios de la plataforma NVIDIA Jetson.

Seminario Web: Cree Agentes de IA para Análisis de Video con IA Generativa

Aprenda cómo crear agentes de IA para análisis de video de alto rendimiento, desde la nube hasta el edge lejano.