Agents d'IA pour l'analyse vidéo

Les agents d'IA pour l'analyse vidéo constituent des assistants basés sur l'IA qui peuvent voir, raisonner et agir sur des flux vidéo, en direct comme enregistrés. Ces agents s'appuient sur des modèles de langage de vision et de grands modèles de langage pour rechercher, résumer et comprendre les vidéos en langage naturel.

Charges de travail

Vision par ordinateur / Analyse vidéo

Industries

Production industrielle
Villes et espaces intelligents
Vente au détail / Biens de grande consommation
Médias et divertissement
Santé et sciences de la vie

Objectifs commerciaux

Retour sur investissement
Innovation

Aperçu

Comment les agents d'IA améliorent-ils l'analyse vidéo traditionnelle ?

Les applications d'analyse vidéo traditionnelles et leurs workflows de développement reposent généralement sur des modèles limités à fonction fixe conçus pour percevoir et identifier uniquement un ensemble d'objets prédéfinis. Grâce à l’IA générative et aux modèles de fondation, vous pouvez désormais concevoir des applications avec moins de modèles pour mettre en œuvre des services de perception incroyablement avancés avec une excellente compréhension contextuelle. Cette nouvelle génération de modèles de langage de vision (VLM), tels que NVIDIA Cosmos™, donnent naissance à des agents d'IA d'analyse vidéo à la fois intelligents et puissants.

Qu'est-ce qu'un agent d'IA pour l'analyse vidéo ?

Un agent d'IA spécialisé dans l'analyse vidéo peut voir, raisonner et agir en combinant la vision et les modalités linguistiques pour comprendre une large gamme de questions ou d'invites en langage naturel appliquées à un flux vidéo enregistré ou en direct. Cette compréhension plus approfondie du contenu vidéo permet des interprétations plus précises et plus significatives, améliorant ainsi la fonctionnalité des applications et l'analyse de scénarios réels. Ces agents promettent de débloquer des informations et des possibilités d'automatisation entièrement nouvelles.

Où les agents d'IA pour l'analyse vidéo sont-ils déployés ?

Des agents d’IA d'analyse vidéo dotés d'un niveau élevé de perception, de précision et d'interactivité peuvent être déployés dans les usines, entrepôts, magasins, aéroports, intersections routières et bien d'autres lieux. Cela aura un impact considérable sur les équipes opérationnelles qui cherchent à créer des espaces plus sûrs et à prendre de meilleures décisions à l'aide d'informations plus riches générées à partir d'interactions naturelles. Les responsables et les équipes opérationnelles communiqueront également avec ces agents en langage naturel, tous alimentés par l'IA générative et des VLM avec les microservices NVIDIA NIM™ en tant que composant central.

Créez des agents d'IA pour l'analyse vidéo

Découvrez le workflow de référence de NVIDIA qui fait appel à différents modèles de langage de vision pour faciliter la conception de votre agent d'analyse vidéo.


Implémentation technique

Développez avec NVIDIA Cosmos

Le cerveau de chaque agent d'IA pour l'analyse vidéo est un VLM capable de voir et de raisonner. Cosmos Embed et Cosmos Reason sont deux VLM courants. Les deux peuvent être utilisés pour enrichir les applications actuelles de vision par ordinateur avec des métadonnées et des résumés de contenu riches.   

NVIDIA NIM regroupe un ensemble de microservices d'inférence accélérés, optimisés pour les GPU de NVIDIA, incluant des API standard de l'industrie, un code spécifique au domaine, des moteurs d'inférence optimisés et un runtime d'entreprise. Cet ensemble fournit une combinaison de VLM, de grands modèles de langage (LLM) et de génération augmentée par récupération (RAG) afin de créer votre agent d'IA pour l'analyse vidéo capable de traiter des images ou des vidéos en direct ou archivées pour extraire des informations exploitables en utilisant un langage naturel. Nous avons créé un workflow de référence d'un agent d'IA pour l'analyse vidéo que vous pouvez essayer pour accélérer votre processus de développement.

Créez des agents d'IA avec le blueprint et les aptitudes de NVIDIA Metropolis VSS

Le blueprint de NVIDIA Metropolis pour la recherche et la synthèse vidéo (VSS) facilite la création et la personnalisation d'agents d'IA pour l'analyse vidéo à l'aide de l'IA générative, des VLM, des LLM, de la RAG et de NVIDIA NIM. Les agents d'IA pour l'analyse vidéo se voient assigner des tâches en langage naturel et peuvent analyser, interpréter et traiter de vastes quantités de données vidéo pour fournir des informations essentielles qui aident un large éventail d'industries à optimiser les processus, à améliorer la sécurité et à réduire les coûts.

La VSS fournit des composants modularisés qui permettent une grande flexibilité, des microservices accélérés qui prennent en charge l'intelligence vidéo en temps réel, la fusion de la recherche agentique sur divers embeddings et des capacités complètes de génération de rapports. Elle fournit également des aptitudes d'agent et des outils permettant aux développeurs de créer des agents d'IA pour l'analyse vidéo avec de invites simplifiées en langage naturel et des agents de codage.

La VSS permet par ailleurs une intégration fluide de l'IA générative aux pipelines de vision par ordinateur existants, ce qui améliore l'inspection, la recherche et l'analyse grâce à une compréhension multimodale avancée et à un raisonnement sans exemple préalable. Les workflows de VSS sont facilement déployables de l'Edge au Cloud sur des plateformes telles que NVIDIA RTX™ 4500, NVIDIA RTX PRO™ 6000, NVIDIA DGX Spark™ et NVIDIA® Jetson Thor™.

Améliorez la précision grâce aux aptitudes des agents de génération de données synthétiques qui affinent les modèles

Les approches traditionnelles de la personnalisation des modèles pour les agents d'IA d'analyse vidéo ont longtemps été à la fois linéaires et lentes (en impliquant des phases chronophages comme la collecte de vidéos, l'étiquetage d'images, l'entraînement, l'évaluation et la répétition) avec un humain dans la boucle à chaque étape et des mois pour atteindre une précision acceptable. Les approches modernes brisent ce cycle en permettant aux agents de codage d'améliorer de manière itérative les performances des VLM et d'exploiter des modèles de fondation pour la vision en fonction des objectifs cibles.

Affinez les modèles de langage de vision grâce aux aptitudes des agents NVIDIA TAO. 

NVIDIA TAO constitue une suite d'aptitudes et d'outils pour les agents permettant de mettre au point des modèles d'IA de vision avec des invites en langage naturel. Les agents de codage utilisent ces outils et ces aptitudes pour atteindre de manière autonome les cibles de précision des modèles en évaluant la précision des modèles de manière itérative, en déterminant les données d'entraînement précises nécessaires, en extrayant les données existantes ou en générant les données nécessaires de manière synthétique.

Exploitez le plein potentiel des données d'entraînement grâce aux aptitudes des agents pour la génération de données synthétiques.

Lorsque les données d'entraînement sont limitées, les développeurs peuvent générer rapidement des données synthétiques portant sur les défauts à des fins d'inspection visuelle ou augmenter des vidéos pour différents scénarios tels que la météo, l'éclairage et bien plus encore.


FAQ

Oui, vous pouvez désormais créer plus rapidement des agents d'IA pour l'analyse vidéo à partir de simples invites en langage naturel en utilisant les aptitudes VSS avec des agents de codage tels que Codex et Claude. Découvrez une suite complète d'aptitudes VSS sur github

Un NIM est un ensemble de microservices faciles d'emploi conçus pour un déploiement sécurisé et fiable d'inférences de modèles d'IA à hautes performances sur le Cloud, dans les Data Centers et sur les stations de travail. Les NIM prennent en charge une large gamme de modèles d'IA, notamment les modèles de la communauté open source et les modèles de fondation d'IA de NVIDIA, pour garantir une inférence d'IA fluide et évolutive, sur site ou dans le Cloud, à l'aide d'API standard de l'industrie. Tous les microservices NIM et les API d'aperçu associées sont accessibles à l'adresse build.nvidia.com.

Rendez-vous sur build.nvidia.com pour commencer à découvrir le blueprint NVIDIA Metropolis VSS et les microservices NIM disponibles, tels que NIM NVIDIA Cosmos Reason 2 VLM. Le NIM Cosmos 3 sera bientôt disponible. 

Tous les utilisateurs peuvent se lancer gratuitement en utilisant les API d'aperçu disponibles sur build.nvidia.com. Chaque nouveau compte peut recevoir jusqu'à 5 000 crédits pour essayer les API. Si vous souhaitez poursuivre le développement après l'expiration de vos crédits, vous pouvez choisir de télécharger et de déployer les microservices NIM en local sur votre matériel ou en ligne sur une instance Cloud. Les développeurs peuvent également accéder aux microservices NIM via le programme NVIDIA Développeurs. Pour en savoir plus, consultez cette FAQ.

NVIDIA NIMs est disponible via un programme d'essai gratuit pour les développeurs. Pour passer en production, les microservices NIM téléchargeables nécessitent une licence NVIDIA AI Enterprise. Pour en savoir plus, consultez cette page.

Le forum de développement NIM est le meilleur endroit pour poser vos questions et échanger avec notre communauté de développeurs. Vous pouvez accéder aux forums ici.

Démarrage

Créez des agents d'IA pour l'analyse vidéo

Découvrez le workflow de référence de NVIDIA qui fait appel à différents modèles de langage de vision pour faciliter la conception de votre agent d'IA pour l'analyse vidéo.

Guides des développeurs : Créer un agent d'IA pour l'analyse vidéo

Déployez des agents d'IA de l'Edge au Cloud

Exploitez la puissance du blueprint de VSS pour déployer en toute simplicité des agents d'IA de l'Edge au Cloud, avec des performances évolutives sur une grande variété de GPU.

GPU NVIDIA RTX PRO 6000 série Blackwell

Les GPU NVIDIA RTX PRO™ 6000 de la série Blackwell accélèrent l'IA physique en exécutant toutes les charges de travail liées au développement des robots : entraînement, génération de données synthétiques, apprentissage robotique et simulation.

NVIDIA Jetson Thor

Accélérez l'avenir de l'IA physique et de la robotique avec les modules de la série NVIDIA Jetson Thor™ qui fournissent jusqu'à 2 070 TFLOPS de puissance FP4 pour les calculs d'IA et 128 Go de mémoire, le tout dans une configuration compacte.

NVIDIA DGX Spark

NVIDIA DGX Spark apporte la puissance de NVIDIA Grace Blackwell aux PC de bureau des développeurs. Grâce à la NVIDIA GB10 Superchip combinée à 128 Go de mémoire système unifiée, les chercheurs en IA, les data scientists et les étudiants peuvent travailler en local avec des modèles d'IA pouvant comporter jusqu'à 200 milliards de paramètres.

NVIDIA Jetson Thor

Accélérez l'avenir de l'IA physique et de la robotique avec les modules de la série NVIDIA Jetson Thor qui fournissent jusqu'à 2 070 TFLOPS de puissance FP4 pour les calculs d'IA avec 128 Go de mémoire, le tout dans une configuration compacte.

Études de cas connexes