Agentes de IA visual impulsados por IA generativa

Agentes de IA visual impulsados por IA generativa

Descubre una colección de flujos de trabajo de referencia que utilizan modelos de lenguaje de visión para ofrecer capacidades de percepción visual avanzadas e interactivas a una amplia gama de sectores.

Cargas de trabajo

Visión informática/análisis de video

Sectores

Comercio minorista/Productos de consumo envasados
Fabricación
Ciudades/espacios inteligentes
Sanidad y biociencias

Objetivo del negocio

Retorno de inversión
Innovación

Productos

NVIDIA Metropolis
NVIDIA AI Enterprise

Impulsar una nueva ola de aplicaciones

Las aplicaciones de análisis de vídeo tradicionales y sus flujos de trabajo de desarrollo suelen basarse en modelos limitados de función fija que están diseñados para detectar e identificar solo un conjunto selecto de objetos predefinidos. Con la IA generativa y los modelos básicos, ahora puedes crear aplicaciones con menos modelos que tengan una percepción increíblemente compleja y amplia y una rica comprensión contextual. Esta nueva generación de modelos de lenguaje de visión (VLM) está dando lugar a agentes de IA visuales inteligentes y poderosos.

¿Qué es un agente de IA visual?

Un agente de IA de análisis de vídeo puede combinar tanto modalidades de visión como de lenguaje para comprender las indicaciones de lenguaje natural y dar respuestas visuales a preguntas. Por ejemplo, responder a una amplia gama de preguntas en lenguaje natural que se pueden aplicar en relación a una transmisión de vídeo ya sea grabada o en vivo. Esta comprensión más profunda del contenido de vídeo permite interpretaciones más precisas y significativas, mejorando la funcionalidad de las aplicaciones de análisis de vídeo y el análisis de escenarios del mundo real. Estos agentes prometen desbloquear información y posibilidades completamente nuevas para la automatización.

Agilizar cada operación industrial

Agentes de IA visuales altamente perceptivos, precisos e interactivos se desplegarán en nuestras fábricas, almacenes, tiendas minoristas, aeropuertos, intersecciones de tráfico, etc. Esto tendrá un gran impacto en los equipos de operaciones que buscan tomar mejores decisiones utilizando información más rica, generada a partir de interacciones naturales. Los gerentes y los equipos de operaciones se comunicarán con estos agentes en lenguaje natural, todo ello con la tecnología generativa de IA y grandes modelos de lenguaje de visión con microservicios NVIDIA NIM™ en su núcleo.

Desarrolla con NVIDIA NIM

NVIDIA NIM es un conjunto de microservicios de inferencia que incluye API estándar del sector, código específico de dominio, motores de inferencia optimizados y tiempo de ejecución empresarial. Ofrece múltiples VLM para crear tu agente de IA visual, capaz de procesar imágenes o vídeos, tanto en vivo como archivados, para extraer información procesable utilizando lenguaje natural. Hemos creado un flujo de trabajo de referencia de un agente de IA visual que puedes probar para acelerar tu proceso de desarrollo.

Cree agentes de IA con el blueprint de NVIDIA AI

El Blueprint de NVIDIA AI para búsqueda y resumen de vídeos (VSS) facilita el comienzo de creación y personalización de agentes de IA de análisis de vídeo, todo ello con IA generativa, modelos de lenguaje de visión (VLM), modelos lingüísticos de gran tamaño (LLM) y NVIDIA NIM. A los agentes de IA de análisis de vídeo se les asignan tareas mediante lenguaje natural y pueden procesar grandes cantidades de datos de vídeo para proporcionar información crítica que ayude a diversos sectores a optimizar procesos, mejorar la seguridad y reducir los costes.

Los agentes de IA creados a partir del blueprint pueden analizar, interpretar y procesar datos de vídeo a escala, produciendo resúmenes de vídeo hasta 200 veces más rápido que al revisar los vídeos manualmente. El blueprint puede acelerar el desarrollo de agentes de IA al reunir varios modelos y servicios de IA generativa y ofrece mucha flexibilidad mediante una amplia gama de VLM/LLM de NVIDIA y de terceros, así como opciones de implementaciones optimizadas desde el perímetro hasta la nube.

Cree agentes perimetrales con los servicios de la plataforma Jetson

Los desarrolladores pueden crear agentes visuales de IA con la plataforma de IA en el perímetro NVIDIA Jetson™ utilizando la nueva característica de NVIDIA JetPack™: Jetson Platform Services. La aplicación generativa de IA se ejecuta completamente en un dispositivo NVIDIA Jetson Orin™, capaz de detectar eventos para generar alertas y facilitar sesiones interactivas de preguntas y respuestas.

NIM es un conjunto de microservicios fáciles de usar diseñados para implementar, de forma segura y fiable, inferencias de modelos de IA de alto rendimiento en la nube, centros de datos y estaciones de trabajo. Es compatible con una amplia gama de modelos de IA, entre ellos los de la comunidad de código abierto y los de NVIDIA AI Foundation, para garantizar una inferencia de IA perfecta y escalable, en las instalaciones o en la nube, utilizando API estándar del sector. Todos los microservicios NIM y las API de vista previa asociadas se pueden encontrar en build.nvidia.com.

Para empezar con los microservicios NIM y los Blueprints de NVIDIA AI, visite build.nvidia.com para crear una cuenta y empezar a explorar los microservicios NIM disponibles. Puede consultar los NIM de VLM disponibles aquí.

Pruebe el Blueprint de NVIDIA AI para búsqueda y resumen de vídeos de forma gratuita, 

Todos los usuarios pueden empezar gratis con las API de vista previa en build.nvidia.com. Cada cuenta nueva puede recibir hasta 5000 créditos para probar las API. Para continuar el desarrollo después de que se agoten los créditos, puede implementar los microservicios NIM descargables de forma local en su hardware o en una instancia de la nube. Los desarrolladores también pueden acceder a NIM a través del programa de desarrolladores de NVIDIA. Ver los detalles en estas preguntas frecuentes.

NVIDIA NIM es gratuito para que los desarrolladores lo prueben. Para pasar a producción, los microservicios NIM descargables requieren una licencia de NVIDIA AI Enterprise. Para obtener más información, visite esta página.

El foro de desarrolladores de NIM es el mejor lugar para hacer preguntas e interactuar con nuestra comunidad de desarrolladores. Puede acceder a los foros aquí. 

Crear agentes de IA visual

Explora el flujo de trabajo de referencia impulsado por múltiples modelos de lenguaje visual para crear fácilmente tu agente de IA visual.

Desarrolladores en acción

Cree agentes de IA avanzados para análisis de vídeo

Descubra la mejora más reciente del blueprint de NVIDIA AI para búsqueda y resumen de vídeos, ahora disponible de forma general.

Cree un agente de búsqueda y resumen de vídeos

Descubra el blueprint de NVIDIA AI para búsqueda y resumen de vídeo, que integra VLM, LLM y RAG complejos con microservicios compatibles.

Desarrolle agentes de IA de análisis de vídeo para el perímetro

Explore los agentes de IA para análisis de vídeo basados en VLM en el perímetro utilizando NVIDIA Jetson Platform Services. 

Seminario web: cómo desbloquear el análisis de vídeo con agentes de IA

Descubra cómo desarrollar y ajustar con precisión agentes de IA que analizan el vídeo y ofrecen información crítica utilizando los últimos modelos de lenguaje de visión.

Implemente agentes de IA desde el perímetro a la nube

Aproveche el potencial del blueprint VSS para implementar agentes de IA de forma impecable desde el perímetro a la nube,

NVIDIA DGX Spark

DGX™ Spark lleva la potencia de NVIDIA Grace Blackwell a los escritorios de los desarrolladores. El superchip GB10, combinado con 128 GB de memoria de sistema unificada, permite a investigadores de IA, científicos de datos y estudiantes trabajar con modelos de IA de forma local con hasta 200 000 millones de parámetros.

Acelere las cargas de trabajo de IA física con las GPU NVIDIA RTX PRO Blackwell Serie 6000

Las GPU NVIDIA RTX PRO™ Blackwell Serie 6000 aceleran la IA física al ejecutar todas las cargas de trabajo de desarrollo de robots a través del entrenamiento, la generación de datos sintéticos, el aprendizaje de robots y la simulación.