KI-Agenten für die Videoanalyse sind KI-gestützte Assistenten, die Live- oder aufgezeichnete Videostreams sehen, logisch denken und handeln können. Sie nutzen visuelle Sprachmodelle und große Sprachmodelle, um Videos mit natürlicher Sprache zu suchen, zusammenzufassen und zu verstehen.
Workloads
Computer Vision/Videoanalyse
Branchen
Fertigung
Smart Cities/Räume,
Einzelhandel/Konsumgüter
Medien und Unterhaltung
Gesundheitswesen und Biowissenschaften
Geschäftsziel
Return on Investment
Innovation
Überblick
Herkömmliche Videoanalyse-Anwendungen und ihre Entwicklungs-Workflows basieren in der Regel auf Modellen mit festen Funktionen, die darauf ausgelegt sind, nur einen ausgewählten Satz von vordefinierten Objekten zu erkennen und zu identifizieren. Mit generativen KI- und Grundlagenmodellen können Sie jetzt Anwendungen mit weniger Modellen erstellen. Diese weisen eine unglaublich komplexe und breite Wahrnehmung und ein umfassendes kontextuelles Verständnis auf. Diese neue Generation von Vision Language Models (VLMs), wie NVIDIA Cosmos™ Reason, ermöglicht intelligente, leistungsstarke KI-Agenten für die Videoanalyse.Diese neue Generation von Vision-Sprachmodellen (VLMs), wie NVIDIA Cosmos™, ermöglicht intelligente, leistungsstarke KI-Agenten für die Videoanalyse.
Ein KI-Agent für die Videoanalyse kann sehen, logisch denken und handeln, indem er Bild- und Sprachmodalitäten kombiniert, um eine Vielzahl von Fragen oder Aufforderungen in natürlicher Sprache zu verstehen, die auf einen aufgezeichneten oder Live-Videostream angewendet werden. Dieses tiefere Verständnis von Videoinhalten ermöglicht genauere und aussagekräftige Interpretationen, verbessert die Funktionalität von Videoanalyseanwendungen und die Analyse von realen Szenarien. Diese Agenten versprechen völlig neue Erkenntnisse und Möglichkeiten für die Automatisierung.
Hochsensible, genaue und interaktive KI-Agenten für die Videoanalyse werden in Zukunft in Fabriken, Lagern, Einzelhandelsgeschäften, Flughäfen, Verkehrsknotenpunkten und anderen Bereichen eingesetzt. Dies wird enorme Auswirkungen auf Betriebsteams haben, die mithilfe umfassender, durch natürliche Interaktionen gewonnener Erkenntnisse sicherere Räume schaffen und bessere Entscheidungen treffen möchten. Manager und Betriebsteams werden dann mit diesen Agenten in natürlicher Sprache kommunizieren, alle unterstützt von generativer KI und VLMs mit NVIDIA NIM™-Microservices.
Quick-Links
Technische Umsetzung
Das Gehirn in jedem KI-Agenten für die Videoanalyse ist ein VLM, das sehen und schlussfolgern kann. Zwei gängige VLMs sind NVIDIA Cosmos 3 und Cosmos Embed. Beide können verwendet werden, um aktuelle Computer-Vision-Anwendungen mit umfangreichen Metadaten und Inhaltszusammenfassungen zu ergänzen.
NVIDIA NIM besteht aus einer Reihe von beschleunigten Inferenz-Microservices, die für NVIDIA-GPUs optimiert sind und branchenübliche APIs, fachspezifischen Code, optimierte Inferenz-Engines und eine Unternehmens-Laufzeitumgebung umfassen. Es bietet eine Kombination aus VLMs, großen Sprachmodellen (LLMs) und Retrieval-Augmented Generation (RAG) für die Entwicklung Ihres KI-Agenten für die Videoanalyse, der Live- oder archivierte Bilder oder Videos verarbeiten kann, um mithilfe natürlicher Sprache umsetzbare Erkenntnisse zu extrahieren. Wir haben einen Referenz-Workflow eines KI-Agenten für die Videoanalyse erstellt, den Sie ausprobieren können, um Ihren Entwicklungsprozess zu beschleunigen.
Quick-Links
Der NVIDIA Metropolis Blueprint für Videosuche und Zusammenfassung (VSS) erleichtert die Entwicklung und Anpassung von KI-Agenten für die Videoanalyse mit generativer KI, VLMs, LLMs, RAG und NVIDIA NIM. Die KI-Agenten für die Videoanalyse erhalten Aufgaben in natürlicher Sprache und können große Mengen von Videodaten verarbeiten, um wichtige Erkenntnisse zu analysieren, interpretieren und gewinnen. Diese helfen einer Reihe von Branchen dabei, Prozesse zu optimieren, die Sicherheit zu verbessern und Kosten zu senken.
VSS bietet modularisierte Komponenten, die eine hohe Flexibilität ermöglichen, beschleunigte Microservices, die Echtzeit-Video-Intelligenz unterstützen, agentische Fusionssuche über verschiedene Einbettungen hinweg sowie umfassende Funktionen zur Berichtgenerierung. Es bietet außerdem Agentenfähigkeiten und Tools, mit denen Entwickler KI-Agenten für die Videoanalyse mit einfachen Prompts in natürlicher Sprache und Programmieragenten entwickeln können.
VSS ermöglicht außerdem die nahtlose Integration von generativer KI in bestehende Computer-Vision-Pipelines und verbessert so Inspektion, Suche und Analysen durch multimodales Verständnis und Zero-Shot-Reasoning. VSS lässt sich problemlos vom Edge bis zur Cloud auf Plattformen wie NVIDIA RTX 4500, NVIDIA RTX PRO™ 6000, NVIDIA DGX Spark™ und NVIDIA® Jetson Thor™ bereitstellen.
Quick-Links
Herkömmliche Ansätze für die Anpassung von Modellen für KI-Agenten in der Videoanalyse waren linear und langsam – Videos sammeln, Frames kennzeichnen, Trainieren, Bewerten, Wiederholen – wobei bei jedem Schritt ein Mensch beteiligt war und es Monate dauerte, um eine akzeptable Genauigkeit zu erreichen. Moderne Ansätze durchbrechen diesen Zyklus, indem sie es Programmieragenten ermöglichen, die Leistung von VLM- und Vision-Foundation Models auf der Grundlage von Zielen iterativ zu verbessern.
Optimieren Sie Vision-Sprachmodelle mit den Fähigkeiten des NVIDIA TAO-Agenten.
NVIDIA TAO ist eine Suite von Agenten-Fähigkeiten und -Tools für die Feinabstimmung von Vision-KI-Modellen mit Prompts in natürlicher Sprache. Programmier-Agenten nutzen diese Tools und Fähigkeiten, um Ziele für die Modellgenauigkeit autonom zu erreichen, indem sie die Modellgenauigkeit iterativ bewerten, die genau benötigten Trainingsdaten bestimmen und anschließend bestehende Daten erschließen oder die erforderlichen Daten synthetisch generieren.
Lösen Sie die Herausforderung mit Trainingsdaten mit Agentenfähigkeiten für die Generierung synthetischer Daten.
Wenn die Trainingsdaten begrenzt sind, können Entwickler schnell synthetische Fehlerdaten für die visuelle Inspektion generieren oder Videos für verschiedene Szenarien wie Wetter, Beleuchtung und mehr augmentieren.
Quick-Links
FAQs
Ja, Sie können jetzt KI-Agenten für die Videoanalyse schneller aus einfachen Prompts in natürlicher Sprache entwickeln und VSS-Fähigkeiten mit Programmieragenten wie Codex und Claude nutzen. Entdecken Sie eine Reihe von VSS-Fähigkeiten auf github.
Ein NIM ist eine Reihe von einfach zu bedienenden Microservices, die für die sichere, zuverlässige Bereitstellung von leistungsstarker KI-Modellinferenz in der Cloud, im Rechenzentrum und auf Workstations entwickelt wurden. Es unterstützt eine Vielzahl von KI-Modellen, darunter Modelle der Open-Source-Community und NVIDIA KI-Foundation-Modelle, um eine nahtlose, skalierbare KI-Inferenz – vor Ort oder in der Cloud – mit branchenüblichen APIs zu gewährleisten. Alle NIM-Microservices und zugehörige Vorschau-APIs finden Sie unter build.nvidia.com.
Besuchen Sie build.nvidia.com, um den NVIDIA Metropolis VSS Blueprint und verfügbare NIM-Microservices wie NVIDIA Cosmos Reason 2 VLM NIM zu erkunden. Der Cosmos 3 NIM kommt in Kürze.
Alle Benutzer können kostenlos mit den Vorschau-APIs auf build.nvidia.com beginnen. Jedes neue Konto kann bis zu 5.000 Credits erhalten, um die APIs auszuprobieren. Um die Entwicklung fortzusetzen, nachdem die Credits aufgebraucht sind, können Sie die herunterladbaren NIM-Microservices lokal auf Ihrer Hardware oder auf einer Cloud-Instanz bereitstellen. Entwickler können auch über das NVIDIA-Entwicklerprogramm auf NIM zugreifen. Einzelheiten finden Sie in diesen FAQ.
NVIDIA NIMs kann von Entwicklern kostenlos ausprobiert werden. Um in den Produktivbetrieb überzugehen, benötigen herunterladbare NIM-Microservices eine NVIDIA-AI-Enterprise-Lizenz. Mehr dazu erfahren Sie auf dieser Seite.
Das NIM-Entwicklerforum ist der beste Ort, um Fragen zu stellen und mit unserer Entwickler-Community zu interagieren. Hier können Sie auf die Foren zugreifen.
Erkunden Sie den Referenz-Workflow, der von mehreren visuellen Sprachmodellen unterstützt wird, um Ihren KI-Agenten für die Videoanalyse einfach zu erstellen.
Nutzen Sie das Leistungspotenzial des VSS-Blueprints, um KI-Agenten nahtlos von Edge-Systemen bis zur Cloud bereitzustellen – mit skalierbarer Leistung für unterschiedliche GPUs.