Découvrez une collection de workflows de référence qui exploitent les modèles de langage de vision (VLM) pour fournir des capacités avancées et interactives à des fins de perception visuelle dans de nombreux secteurs.
Charges de travail
Vision par ordinateur / Analyse vidéo
Industries
Vente au détail/Biens de consommation courante
Production industrielle
Villes et espaces intelligents
Santé et Sciences de la vie
Objectif commercial
Retour sur investissement
Innovation
Aperçu
Les applications d'analyse vidéo traditionnelles et leurs workflows de développement reposent généralement sur des modèles limités à fonction fixe conçus pour détecter et identifier uniquement un ensemble d'objets prédéfinis. Grâce à l’IA générative et aux modèles de fondation, vous pouvez désormais concevoir des applications avec moins de modèles pour mettre en œuvre des services de perception incroyablement avancés avec une excellente compréhension contextuelle. À l'image de NVIDIA Cosmos™ Reason, ces modèles de langage de vision (VLM) de nouvelle génération donnent naissance à des agents d'IA d'analyse vidéo intelligents et puissants.
Un agent d'IA spécialisé dans l'analyse vidéo peut voir, raisonner et agir en combinant la vision et les modalités linguistiques pour comprendre une large gamme de questions ou d'invites en langage naturel appliquées à un flux vidéo enregistré ou en direct. Cette compréhension plus approfondie du contenu vidéo permet des interprétations plus précises et plus significatives, améliorant ainsi la fonctionnalité des applications et l'analyse de scénarios réels. Ces agents promettent de débloquer des informations et des possibilités d'automatisation entièrement nouvelles.
Des agents d’IA d'analyse vidéo dotés d'un niveau élevé de perception, de précision et d'interactivité peuvent être déployés dans les usines, entrepôts, magasins, aéroports, intersections routières et bien d'autres lieux. Cela aura un impact considérable sur les équipes opérationnelles qui cherchent à créer des espaces plus sûrs et à prendre de meilleures décisions à l'aide d'informations plus riches générées à partir d'interactions naturelles. Les responsables et les équipes opérationnelles communiqueront également avec ces agents en langage naturel, tous alimentés par l'IA générative et des VLM avec les microservices NVIDIA NIM™ en tant que composant central.
Liens rapides
Implémentation technique
Le cerveau de chaque agent d'IA d'analyse vidéo est un VLM capable de voir et de raisonner. Cosmos Embed et Cosmos Reason sont deux VLM courants. Tous deux peuvent être utilisés pour enrichir les applications actuelles de vision par ordinateur avec des métadonnées et des résumés de contenu riches.
NVIDIA NIM est un ensemble de microservices d'inférence accélérés optimisés pour les GPU NVIDIA et qui incluent des API standard de l'industrie, un code spécifique au domaine, des moteurs d'inférence optimisés et un runtime d'entreprise. Cet ensemble fournit une combinaison de VLM, de grands modèles de langage (LLM) et de génération augmentée par récupération (RAG) afin de créer votre agent d'IA pour l'analyse vidéo capable de traiter des images ou des vidéos en direct ou archivées pour extraire des informations exploitables en utilisant un langage naturel. Nous avons créé un workflow de référence d'un agent d'IA pour l'analyse vidéo que vous pouvez essayer pour accélérer votre processus de développement.
Liens rapides
Le modèle NVIDIA pour la recherche et la synthèse vidéo (VSS) facilite la création et la personnalisation d'agents d'IA pour l'analyse vidéo à l'aide de l'IA générative, des VLM, des LLM, du RAG et NVIDIA NIM. Les agents d'IA de l'analyse vidéo se voient assigner des tâches en langage naturel et peuvent analyser, interpréter et traiter de vastes quantités de données vidéo pour fournir des informations essentielles qui aident un large éventail d'industries à optimiser les processus, à améliorer la sécurité et à réduire les coûts.
VSS fournit des composants modularisés qui permettent une grande flexibilité, des microservices accélérés qui prennent en charge l'intelligence vidéo en temps réel, la recherche agentique sur divers embeddings et des capacités complètes de génération de rapports.
VSS permet une intégration fluide de l'IA générative aux pipelines de vision par ordinateur existants, ce qui améliore l'inspection, la recherche et l'analyse grâce à une compréhension multimodale et à un raisonnement sans exemple préalable. VSS est facilement déployé de l'Edge au Cloud sur des plateformes telles que NVIDIA RTX™ 4500, NVIDIA RTX PRO™ 6000, NVIDIA DGX Spark™ et NVIDIA® Jetson Thor™.
Liens rapides
FAQ
NIM est une plateforme qui centralise un ensemble de microservices faciles d'emploi conçus pour un déploiement sécurisé et fiable de modèles d'IA à hautes performances pour produire des inférences sur les Clouds, dans les Data Centers et sur les stations de travail. Elle prend en charge une large gamme de modèles d'IA, notamment les modèles de la communauté open source et les modèles de fondation d'IA de NVIDIA, pour garantir une inférence d'IA fluide et évolutive, sur site ou dans le Cloud, à l'aide d'API standard de l'industrie. Tous les microservices NIM et les API d'aperçu associées sont accessibles à l'adresse build.nvidia.com.
Rendez-vous sur build.nvidia.com pour créer un compte et commencer à explorer les microservices NIM disponibles. Vous pouvez consulter le NIM VLM NVIDIA Cosmos Reason.
Essayez gratuitement l'AI Blueprint NVIDIA pour la recherche et le résumé vidéo.
Tous les utilisateurs peuvent se lancer gratuitement en utilisant les API d'aperçu disponibles sur build.nvidia.com. Chaque nouveau compte peut recevoir jusqu'à 5 000 crédits pour essayer les API. Si vous souhaitez poursuivre le développement après l'expiration de vos crédits, vous pouvez choisir de télécharger et de déployer les microservices NIM en local sur votre matériel ou en ligne sur une instance Cloud. Les développeurs peuvent également accéder aux microservices NIM via le programme NVIDIA Développeurs. Pour en savoir plus, consultez cette FAQ.
NVIDIA NIM est disponible via un programme d'essai gratuit pour les développeurs. Pour passer en production, les microservices NIM téléchargeables nécessitent une licence NVIDIA AI Enterprise. Pour en savoir plus, consultez cette page.
Le forum de développement NIM est le meilleur endroit pour poser vos questions et échanger avec notre communauté de développeurs. Vous pouvez accéder aux forums ici.
Découvrez le workflow de référence de NVIDIA qui fait appel à différents modèles de langage visuel pour faciliter la conception de votre agent d'IA visuelle.
Exploitez la puissance du modèle VSS pour déployer en toute simplicité des agents d'IA de l'Edge au Cloud, avec des performances évolutives sur une grande variété de GPU.