Agents d'IA visuelle reposant sur l'IA générative

Agents d'IA d'analyse de vidéos

Découvrez une collection de workflows de référence qui exploitent les modèles de langage de vision (VLM) pour fournir des capacités avancées et interactives à des fins de perception visuelle dans de nombreux secteurs.

Charges de travail

Vision par ordinateur / Analyse vidéo

Industries

Vente au détail/Biens de consommation courante
Production industrielle
Villes et espaces intelligents
Santé et Sciences de la vie

Objectif commercial

Retour sur investissement
Innovation

Aperçu

Alimentez une nouvelle vague d'applications

Les applications d'analyse vidéo traditionnelles et leurs workflows de développement reposent généralement sur des modèles limités à fonction fixe conçus pour détecter et identifier uniquement un ensemble d'objets prédéfinis. Grâce à l’IA générative et aux modèles de fondation, vous pouvez désormais concevoir des applications avec moins de modèles pour mettre en œuvre des services de perception incroyablement avancés avec une excellente compréhension contextuelle. À l'image de NVIDIA Cosmos™ Reason, ces modèles de langage de vision (VLM) de nouvelle génération donnent naissance à des agents d'IA d'analyse vidéo intelligents et puissants.

Qu'est-ce qu'un agent d'IA visuelle ?

Un agent d'IA d'analyse vidéo peut combiner les modalités de vision et de langage pour comprendre les invites de langage naturel et effectuer des réponses visuelles aux questions. Par exemple pour répondre à un large éventail de questions en langage naturel à des fins d'exploitation avec un flux vidéo enregistré ou en direct. Cette compréhension plus approfondie du contenu vidéo permet des interprétations plus précises et plus significatives, améliorant ainsi la fonctionnalité des applications et l'analyse de scénarios réels. Ces agents promettent de débloquer des informations et des possibilités d'automatisation entièrement nouvelles.

Simplifiez tous les espaces et toutes les opérations

Des agents d’IA d'analyse vidéo dotés d'un niveau élevé de perception, de précision et d'interactivité peuvent être déployés dans les usines, entrepôts, magasins, aéroports, intersections routières et bien d'autres lieux. Cela aura un impact considérable sur les équipes opérationnelles qui cherchent à créer des espaces plus sûrs et à prendre de meilleures décisions à l'aide d'informations plus riches générées à partir d'interactions naturelles. Les responsables et les équipes opérationnelles communiqueront également avec ces agents en langage naturel, tous alimentés par l'IA générative et des VLM avec les microservices NVIDIA NIM™ en tant que composant central.

Créer des agents d'IA pour l'analyse vidéo

Découvrez le workflow de référence de NVIDIA qui fait appel à différents modèles de langage visuel pour faciliter la conception de votre agent d'analyse vidéo.


Implémentation technique

Développez avec NVIDIA NIM

NVIDIA NIM est un ensemble de microservices d'inférence qui inclut des API standard de l'industrie, un code spécifique à un domaine, des moteurs d'inférence optimisés et un environnement d'exécution d'entreprise. Cet environnement combine des modèles VLM, LLM et RAG pour créer votre agent d'IA pour l'analyse vidéo afin d'optimiser le traitement des images ou des vidéos en direct ou archivées pour extraire des informations exploitables en utilisant un langage naturel. Nous avons créé un workflow de référence d'un agent d'IA pour l'analyse vidéo que vous pouvez essayer pour accélérer votre processus de développement.

Développez des agents d'IA avec le modèle d'IA de NVIDIA

Le modèle d'IA de NVIDIA pour la recherche et la récapitulation vidéo (VSS) permet de commencer à développer et à personnaliser facilement des agents d'IA d'analyse vidéo, le tout alimenté par l'IA générative, les modèles de langage de vision (VLM), les grands modèles de langage (LLM) et NVIDIA NIM. Les agents d'IA d'analyse vidéo se voient assigner des tâches via le langage naturel et peuvent traiter de grandes quantités de données vidéo pour fournir des informations essentielles qui aident un large éventail d'industries à optimiser les processus, à améliorer la sécurité et à réduire les coûts.

VSS permet une intégration fluide de l'IA générative aux pipelines de vision par ordinateur existants, ce qui améliore l'inspection, la recherche et l'analyse grâce à une compréhension multimodale et à un raisonnement sans exemple préalable. Vous pouvez facilement déployer de l'Edge au cloud sur des plateformes notamment NVIDIA RTX PRO™ 6000, NVIDIA DGX™ Spark et NVIDIA® Jetson Thor™.

Créez des agents à l'Edge avec les services de plateforme Jetson

Les développeurs peuvent créer des agents d'IA visuelle alimentés par la plateforme d'IA à l'Edge NVIDIA Jetson™ en utilisant la nouvelle fonctionnalité NVIDIA JetPack™ via les services de plateforme Jetson. L’application d’IA générative qui en résulte fonctionne pleinement sur un appareil NVIDIA Jetson Orin™ capable de détecter des événements pour générer des alertes et faciliter des sessions Q&A interactives.

FAQ

NIM est une plateforme qui centralise un ensemble de microservices faciles d'emploi conçus pour un déploiement sécurisé et fiable de modèles d'IA à hautes performances pour produire des inférences sur les Clouds, dans les Data Centers et sur les stations de travail. Elle prend en charge une grande variété de modèles d'IA, notamment des modèles communautaires open-source et les modèles de fondation de NVIDIA pour l'IA, afin de garantir une inférence simplifiée et évolutive des modèles d'IA sur site ou dans le Cloud à l'aide d'API standardisées. Tous les microservices NIM et les API d'aperçu associées sont accessibles à l'adresse build.nvidia.com.

Rendez-vous sur build.nvidia.com pour créer un compte et commencer à explorer les microservices NIM disponibles. Vous pouvez consulter le NIM VLM NVIDIA Cosmos Reason.

Essayez gratuitement l'AI Blueprint NVIDIA pour la recherche et le résumé vidéo.

Tous les utilisateurs peuvent se lancer gratuitement en utilisant les API d'aperçu disponibles sur build.nvidia.com. Chaque nouveau compte peut recevoir jusqu'à 5 000 crédits pour essayer les API. Si vous souhaitez poursuivre le développement après l'expiration de vos crédits, vous pouvez choisir de télécharger et de déployer les microservices NIM en local sur votre matériel ou en ligne sur une instance Cloud. Les développeurs peuvent également accéder aux microservices NIM via le programme NVIDIA Développeurs. Pour en savoir plus, consultez cette FAQ.

NVIDIA NIM est disponible via un programme d'essai gratuit pour les développeurs. Pour passer en production, les microservices NIM téléchargeables nécessitent une licence NVIDIA AI Enterprise. Pour en savoir plus, consultez cette page.

Le forum de développement NIM est le meilleur endroit pour poser vos questions et échanger avec notre communauté de développeurs. Vous pouvez accéder aux forums ici. 

Alimentez une nouvelle vague d'applications

Les applications d'analyse vidéo traditionnelles et leurs workflows de développement reposent généralement sur des modèles limités à fonction fixe conçus pour détecter et identifier uniquement un ensemble d'objets prédéfinis. Grâce à l’IA générative et aux modèles de fondation, vous pouvez désormais concevoir des applications avec moins de modèles pour mettre en œuvre des services de perception incroyablement avancés avec une excellente compréhension contextuelle. Cette nouvelle génération de modèles de langage de vision (VLM) donne naissance à des agents d’IA visuelle aussi intelligents que puissants.

Qu'est-ce qu'un agent d'IA visuelle ?

Un agent d'IA d'analyse vidéo peut combiner les modalités de vision et de langage pour comprendre les invites de langage naturel et effectuer des réponses visuelles aux questions. Par exemple pour répondre à un large éventail de questions en langage naturel à des fins d'exploitation avec un flux vidéo enregistré ou en direct. Cette compréhension plus approfondie du contenu vidéo permet des interprétations plus précises et plus significatives, améliorant ainsi la fonctionnalité des applications et l'analyse de scénarios réels. Ces agents promettent de débloquer des informations et des possibilités d'automatisation entièrement nouvelles.

Rationalisez chaque opération industrielle

Des agents d’IA visuelle dotés d'un niveau élevé de perception, de précision et d'interactivité peuvent être déployés dans les usines, entrepôts, magasins, aéroports, intersections routières et bien d'autres lieux. Ces agents présentent un impact significatif pour les équipes opérationnelles qui cherchent à prendre de meilleures décisions en utilisant des informations plus riches générées via des interactions naturelles. Les responsables et les équipes opérationnelles peuvent communiquer en langage naturel avec ces agents, qui sont alimentés par l'IA générative et de grands modèles de langage de vision avec les microservices NVIDIA NIM TM en tant que composant central..

Développez avec NVIDIA NIM

NVIDIA NIM constitue un ensemble de microservices d'inférence qui comprend des API standard, du code spécifique à un domaine, des moteurs d'inférence optimisés et un environnement d'exécution d'entreprise. Cet environnement fournit de multiples VLM pour la conception de votre agent d'IA visuelle afin d'optimiser le traitement des images ou des vidéos en direct ou archivées pour extraire des informations exploitables en utilisant un langage naturel. Nous avons créé un workflow de référence d’un agent d’IA visuelle que vous pouvez essayer pour accélérer votre processus de développement.

Développez des agents d'IA avec le modèle d'IA de NVIDIA

Le modèle d'IA de NVIDIA pour la recherche et la récapitulation vidéo (VSS) permet de commencer à développer et à personnaliser facilement des agents d'IA d'analyse vidéo, le tout alimenté par l'IA générative, les modèles de langage de vision (VLM), les grands modèles de langage (LLM) et NVIDIA NIM. Les agents d'IA d'analyse vidéo se voient assigner des tâches via le langage naturel et peuvent traiter de grandes quantités de données vidéo pour fournir des informations essentielles qui aident un large éventail d'industries à optimiser les processus, à améliorer la sécurité et à réduire les coûts.

Les agents d'IA conçus à partir du modèle peuvent analyser, interpréter et traiter les données vidéo à grande échelle, produisant des résumés vidéo jusqu'à 200 fois plus rapidement que de consulter les vidéos manuellement. Le modèle permet d'accélérer le développement des agents d'IA en réunissant divers modèles et services d'IA générative, et fournit beaucoup de flexibilité grâce  à une large gamme de VLM/LLM NVIDIA et tiers, ainsi que des options de déploiements optimisés, de l'Edge au Cloud.

Créez des agents à l'Edge avec les services de plateforme Jetson

Les développeurs peuvent créer des agents d'IA visuelle alimentés par la plateforme d'IA à l'Edge NVIDIA Jetson™ en utilisant la nouvelle fonctionnalité NVIDIA JetPack™ via les services de plateforme Jetson. L’application d’IA générative qui en résulte fonctionne pleinement sur un appareil NVIDIA Jetson Orin™ capable de détecter des événements pour générer des alertes et faciliter des sessions Q&A interactives.

NIM est une plateforme qui centralise un ensemble de microservices faciles d'emploi conçus pour un déploiement sécurisé et fiable de modèles d'IA à hautes performances pour produire des inférences sur les Clouds, dans les Data Centers et sur les stations de travail. Elle prend en charge une grande variété de modèles d'IA, notamment des modèles communautaires open-source et les modèles de fondation de NVIDIA pour l'IA, afin de garantir une inférence simplifiée et évolutive des modèles d'IA sur site ou dans le Cloud à l'aide d'API standardisées. Tous les microservices NIM et les API d'aperçu associées sont accessibles à l'adresse build.nvidia.com.

Pour démarrer avec les microservices NIM et les modèles NVIDIA AI, visitez build.nvidia.com pour créer un compte et commencer à explorer les microservices NIM disponibles. Vous pouvez vérifier les NIM VLM disponibles ici.

Essayez gratuitement le modèle NVIDIA AI pour la recherche et la synthèse de vidéos, 

Tous les utilisateurs peuvent se lancer gratuitement en utilisant les API d'aperçu disponibles sur build.nvidia.com. Chaque nouveau compte peut recevoir jusqu'à 5 000 crédits pour essayer les API. Si vous souhaitez poursuivre le développement après l'expiration de vos crédits, vous pouvez choisir de télécharger et de déployer les microservices NIM en local sur votre matériel ou en ligne sur une instance Cloud. Les développeurs peuvent également accéder aux microservices NIM via le programme NVIDIA Développeurs. Pour en savoir plus, consultez cette FAQ.

NVIDIA NIM est disponible via un programme d'essai gratuit pour les développeurs. Pour passer en production, les microservices NIM téléchargeables nécessitent une licence NVIDIA AI Enterprise. Pour en savoir plus, consultez cette page.

Le forum de développement NIM est le meilleur endroit pour poser vos questions et échanger avec notre communauté de développeurs. Vous pouvez accéder aux forums ici. 

Concevez des agents d'IA visuelle

Découvrez le workflow de référence de NVIDIA qui fait appel à différents modèles de langage visuel pour faciliter la conception de votre agent d'IA visuelle.

Les développeurs en action

Développez des agents d'IA d'analyse vidéo avancés

Découvrez la dernière amélioration du modèle NVIDIA AI pour la recherche et la synthèse vidéo, désormais disponible partout.

Conception d'un agent de recherche et de synthèse vidéo

Découvrez le modèle d'IA de NVIDIA pour la recherche et la synthèse vidéo, qui intègre des VLM, des LLM et des techniques de RAG complexes avec les microservices pris en charge.

Découvrez nos agents d'IA pour l'analyse vidéo reposant sur les VLM à l'Edge grâce aux services de la plateforme NVIDIA Jetson.

Découvrez nos agents d'IA pour l'analyse vidéo reposant sur les VLM à l'Edge grâce aux services de la plateforme NVIDIA Jetson. 

Webinaire : Exploitation de l'analyse vidéo avec des agents d'IA

Découvrez comment développer et optimiser des agents d'IA capables d'analyser le contenu vidéo et de fournir des informations essentielles à l'aide des modèles de langage de vision les plus récents.

Déployez des agents d'IA de l'Edge au Cloud

Exploitez la puissance du modèle VSS pour déployer en toute simplicité des agents d'IA de l'Edge au Cloud, avec des performances évolutives sur une grande variété de GPU.

NVIDIA DGX Spark

DGX™ Spark apporte la puissance de NVIDIA Grace Blackwell aux ordinateurs de bureau des développeurs. La puce GB10 Superchip, combinée à 128 Go de mémoire système unifiée, permet aux chercheurs en IA, aux data scientists et aux étudiants de travailler localement avec des modèles d'IA comportant jusqu'à 200 milliards de paramètres.

NVIDIA Jetson Thor

Accélérez l'avenir de l'IA physique et de la robotique avec les modules de la série NVIDIA Jetson Thor qui fournissent jusqu'à 2 070 TFLOPS FP4 de calcul d'IA et 128 Go de mémoire, le tout dans une configuration compacte.

Accélérer les charges de travail d'IA physique grâce aux GPU NVIDIA RTX PRO 6000 série Blackwell.

Les GPU NVIDIA RTX PRO™ 6000 de la série Blackwell accélèrent l'IA physique en exécutant toutes les charges de travail dans les domaines de l'entraînement, de la génération de données synthétiques, de l'apprentissage robotique et de la simulation.

Études de cas connexes

Alimentez une nouvelle vague d'applications

Les applications d'analyse vidéo traditionnelles et leurs workflows de développement reposent généralement sur des modèles limités à fonction fixe conçus pour détecter et identifier uniquement un ensemble d'objets prédéfinis. Grâce à l’IA générative et aux modèles de fondation, vous pouvez désormais concevoir des applications avec moins de modèles pour mettre en œuvre des services de perception incroyablement avancés avec une excellente compréhension contextuelle. Cette nouvelle génération de modèles de langage de vision (VLM) donne naissance à des agents d’IA visuelle aussi intelligents que puissants.

Qu'est-ce qu'un agent d'IA visuelle ?

Un agent d'IA d'analyse vidéo peut combiner les modalités de vision et de langage pour comprendre les invites de langage naturel et effectuer des réponses visuelles aux questions. Par exemple pour répondre à un large éventail de questions en langage naturel à des fins d'exploitation avec un flux vidéo enregistré ou en direct. Cette compréhension plus approfondie du contenu vidéo permet des interprétations plus précises et plus significatives, améliorant ainsi la fonctionnalité des applications et l'analyse de scénarios réels. Ces agents promettent de débloquer des informations et des possibilités d'automatisation entièrement nouvelles.

Rationalisez chaque opération industrielle

Des agents d’IA visuelle dotés d'un niveau élevé de perception, de précision et d'interactivité peuvent être déployés dans les usines, entrepôts, magasins, aéroports, intersections routières et bien d'autres lieux. Ces agents présentent un impact significatif pour les équipes opérationnelles qui cherchent à prendre de meilleures décisions en utilisant des informations plus riches générées via des interactions naturelles. Les responsables et les équipes opérationnelles peuvent communiquer en langage naturel avec ces agents, qui sont alimentés par l'IA générative et de grands modèles de langage de vision avec les microservices NVIDIA NIM TM en tant que composant central..

Développez avec NVIDIA NIM

NVIDIA NIM constitue un ensemble de microservices d'inférence qui comprend des API standard, du code spécifique à un domaine, des moteurs d'inférence optimisés et un environnement d'exécution d'entreprise. Cet environnement fournit de multiples VLM pour la conception de votre agent d'IA visuelle afin d'optimiser le traitement des images ou des vidéos en direct ou archivées pour extraire des informations exploitables en utilisant un langage naturel. Nous avons créé un workflow de référence d’un agent d’IA visuelle que vous pouvez essayer pour accélérer votre processus de développement.

Développez des agents d'IA avec le modèle d'IA de NVIDIA

Le modèle d'IA de NVIDIA pour la recherche et la récapitulation vidéo (VSS) permet de commencer à développer et à personnaliser facilement des agents d'IA d'analyse vidéo, le tout alimenté par l'IA générative, les modèles de langage de vision (VLM), les grands modèles de langage (LLM) et NVIDIA NIM. Les agents d'IA d'analyse vidéo se voient assigner des tâches via le langage naturel et peuvent traiter de grandes quantités de données vidéo pour fournir des informations essentielles qui aident un large éventail d'industries à optimiser les processus, à améliorer la sécurité et à réduire les coûts.

Les agents d'IA conçus à partir du modèle peuvent analyser, interpréter et traiter les données vidéo à grande échelle, produisant des résumés vidéo jusqu'à 200 fois plus rapidement que de consulter les vidéos manuellement. Le modèle permet d'accélérer le développement des agents d'IA en réunissant divers modèles et services d'IA générative, et fournit beaucoup de flexibilité grâce  à une large gamme de VLM/LLM NVIDIA et tiers, ainsi que des options de déploiements optimisés, de l'Edge au Cloud.

Créez des agents à l'Edge avec les services de plateforme Jetson

Les développeurs peuvent créer des agents d'IA visuelle alimentés par la plateforme d'IA à l'Edge NVIDIA Jetson™ en utilisant la nouvelle fonctionnalité NVIDIA JetPack™ via les services de plateforme Jetson. L’application d’IA générative qui en résulte fonctionne pleinement sur un appareil NVIDIA Jetson Orin™ capable de détecter des événements pour générer des alertes et faciliter des sessions Q&A interactives.

NIM est une plateforme qui centralise un ensemble de microservices faciles d'emploi conçus pour un déploiement sécurisé et fiable de modèles d'IA à hautes performances pour produire des inférences sur les Clouds, dans les Data Centers et sur les stations de travail. Elle prend en charge une grande variété de modèles d'IA, notamment des modèles communautaires open-source et les modèles de fondation de NVIDIA pour l'IA, afin de garantir une inférence simplifiée et évolutive des modèles d'IA sur site ou dans le Cloud à l'aide d'API standardisées. Tous les microservices NIM et les API d'aperçu associées sont accessibles à l'adresse build.nvidia.com.

Pour démarrer avec les microservices NIM et les modèles NVIDIA AI, visitez build.nvidia.com pour créer un compte et commencer à explorer les microservices NIM disponibles. Vous pouvez vérifier les NIM VLM disponibles ici.

Essayez gratuitement le modèle NVIDIA AI pour la recherche et la synthèse de vidéos, 

Tous les utilisateurs peuvent se lancer gratuitement en utilisant les API d'aperçu disponibles sur build.nvidia.com. Chaque nouveau compte peut recevoir jusqu'à 5 000 crédits pour essayer les API. Si vous souhaitez poursuivre le développement après l'expiration de vos crédits, vous pouvez choisir de télécharger et de déployer les microservices NIM en local sur votre matériel ou en ligne sur une instance Cloud. Les développeurs peuvent également accéder aux microservices NIM via le programme NVIDIA Développeurs. Pour en savoir plus, consultez cette FAQ.

NVIDIA NIM est disponible via un programme d'essai gratuit pour les développeurs. Pour passer en production, les microservices NIM téléchargeables nécessitent une licence NVIDIA AI Enterprise. Pour en savoir plus, consultez cette page.

Le forum de développement NIM est le meilleur endroit pour poser vos questions et échanger avec notre communauté de développeurs. Vous pouvez accéder aux forums ici.