Generative KI-gestützte visuelle KI-Agenten

Videoanalyse-KI-Agenten

Nutzen Sie unsere Sammlung an Referenz-Workflows mit Vision-Sprachmodellen (Vision Language Models) für vielfältige, interaktive visuelle Wahrnehmungsfunktionen in unterschiedlichsten Branchen.

Vision-KI entdecken

Überblick
Technische Umsetzung
FAQs
Erste Schritte
Resources
Stellen Sie KI-Agenten
Erfolgsgeschichten

Überblick
Technische Umsetzung
FAQs
Erste Schritte
Resources
Stellen Sie KI-Agenten
Erfolgsgeschichten

Vision-KI entdecken

Workloads

Computer Vision/Videoanalyse

Branchen

Einzelhandel/Konsumgüter
Fertigung
Smart Citys/Räume
Gesundheitswesen und Biowissenschaftens

Geschäftsziel

Return on Investment (Rentabilität) Innovation

Produkte

Overview

Bringen Sie eine neue Welle von Anwendungen ins Rollen

Herkömmliche Videoanalysen und ihre Entwicklungs-Workflows basieren in der Regel auf einer begrenzten Gruppe von Modellen mit festen Funktionen, die darauf ausgerichtet sind, vordefinierte Objekte zu erkennen und zu identifizieren. Mit generativen KI- und Grundlagenmodellen können Sie jetzt Anwendungen mit weniger Modellen erstellen. Diese weisen eine unglaublich komplexe und breite Wahrnehmung und ein umfassendes kontextuelles Verständnis auf. Diese neue Generation von Vision Language Models (VLMs), wie NVIDIA Cosmos™ Reason, ermöglicht intelligente, leistungsstarke KI-Agenten für die Videoanalyse.

Was ist ein Visual AI Agent?

Ein KI-Agent für die Videoanalyse kann sehen, logisch denken und handeln, indem er Bild- und Sprachmodalitäten kombiniert, um eine Vielzahl von Fragen oder Aufforderungen in natürlicher Sprache zu verstehen, die auf einen aufgezeichneten oder Live-Videostream angewendet werden. Dieses tiefere Verständnis von Videoinhalten ermöglicht genauere und aussagekräftige Interpretationen, verbessert die Funktionalität von Videoanalyseanwendungen und die Analyse von realen Szenarien. Diese Agenten versprechen völlig neue Erkenntnisse und Möglichkeiten für die Automatisierung.

Optimieren Sie sämtliche industrielle Vorgänge

Hochgradig wahrnehmende, genaue und interaktive visuelle KI-Agenten werden in unseren Fabriken, Lagern, Einzelhandelsgeschäften, Flughäfen, Verkehrskreuzungen und in anderen Bereichen zum Einsatz kommen. Dies wird einen enormen Einfluss auf Einsatzteams haben, die auf Basis umfassenderer Erkenntnisse aus natürlichen Interaktionen ihre Entscheidungen verbessern können. In natürlicher Sprache kommunizieren dann die Manager und Einsatzteams mit diesen Agenten, welche alle auf generativer KI und großen Vision-Sprachmodellen mit NVIDIA NIM™-Microservices basieren.

Entwicklung von KI-Agenten für Videoanalysen

Erkunden Sie den Referenz-Workflow, der von mehreren visuellen Sprachmodellen unterstützt wird, und entwickeln Sie mühelos Ihren Videoanalyse-Agenten.

KI-Blueprint entdecken

Quick-Links

Drei Wege, um agentenbasierte KI in Computer-Vision-Anwendungen zu integrieren

NVIDIA, Nokia und T-Mobile legen die Basis für eine AI-RAN-Infrastruktur für Edge-KI-Anwendungen

Ansehen: Aufbau von Smart Cities mit digitalen Zwillingen und agentischer KI

Lesen Sie: Kaohsiung City nutzt Vision-KI, um den Stadtbetrieb zu optimieren

Technische Umsetzung

Mit NVIDIA Cosmos Reason NIM entwickeln

Das Gehirn in jedem KI-Agenten für die Videoanalyse ist ein VLM, das sehen und schlussfolgern kann. Zwei gängige VLMs sind Cosmos Embed und Cosmos Reason. Beide können verwendet werden, um aktuelle Computer-Vision-Anwendungen mit umfangreichen Metadaten und Inhaltszusammenfassungen zu ergänzen.

NVIDIA NIM besteht aus einer Reihe von beschleunigten Inferenz-Microservices, die für NVIDIA-GPUs optimiert sind und branchenübliche APIs, fachspezifischen Code, optimierte Inferenz-Engines und eine Unternehmens-Laufzeitumgebung umfassen. Es bietet eine Kombination aus VLMs, großen Sprachmodellen (LLMs) und Retrieval-Augmented Generation (RAG) für die Entwicklung Ihres KI-Agenten für die Videoanalyse, der Live- oder archivierte Bilder oder Videos verarbeiten kann, um mithilfe natürlicher Sprache umsetzbare Erkenntnisse zu extrahieren. Wir haben einen Referenz-Workflow eines KI-Agenten für die Videoanalyse erstellt, den Sie ausprobieren können, um Ihren Entwicklungsprozess zu beschleunigen.

Quick-Links

NVIDIA Cosmos Reason NIM herunterladen

Erfahren Sie mehr über Cosmos Cookbook

Jetzt lesen: Branchenpioniere entwickeln intelligentere Agenten mit NVIDIA Nemotron und Cosmos Reasoning-Modellen

Testen Sie den Referenz-Workflow für den KI-Agenten für die Videoanalyse

Jetzt lesen: Erstellen von KI-Agenten für die multimodale Videoanalyse mit NVIDIA NIM

Erstellen Sie KI-Agenten mit NVIDIA VSS Blueprint

Der NVIDIA Blueprint für Videosuche und Zusammenfassung (VSS) erleichtert die Erstellung und Anpassung von KI-Agenten für die Videoanalyse mithilfe von generativer KI, VLMs, LLMs, RAG und NVIDIA NIM. Die KI-Agenten für die Videoanalyse erhalten Aufgaben in natürlicher Sprache und können große Mengen von Videodaten verarbeiten, um wichtige Erkenntnisse zu analysieren, interpretieren und gewinnen. Diese helfen einer Reihe von Branchen dabei, Prozesse zu optimieren, die Sicherheit zu verbessern und Kosten zu senken.

VSS bietet modularisierte Komponenten, die eine hohe Flexibilität ermöglichen, beschleunigte Microservices, die Echtzeit-Videointelligenz unterstützen, agentische Suche über verschiedene Einbettungen hinweg sowie umfassende Funktionen zur Berichterstellung.

VSS ermöglicht außerdem die nahtlose Integration von generativer KI in bestehende Computer-Vision-Pipelines und verbessert so die Inspektion, Suche und Analyse mit multimodalem Verständnis und Zero-Shot-Reasoning. VSS lässt sich problemlos vom Edge bis zur Cloud auf Plattformen wie NVIDIA RTX 4500, NVIDIA RTX PRO™ 6000, NVIDIA DGX Spark™ und NVIDIA® Jetson Thor™ bereitstellen.

Quick-Links

Testen Sie den Blueprint in der Cloud mit Launchable

Agentenbasierte Suche nach Attributen, Ereignissen und Aktionen mit natürlicher Sprache

So integrieren Sie Computer-Vision-Pipelines mit generativer KI und Reasoning

Erhalten Sie kontextbasierte Erkenntnisse zu Warnungen mit VLMs

Fortschrittliche KI-Agenten für die Videoanalyse mit dem NVIDIA KI-Blueprint für die Videosuche und Zusammenfassung

Livestream: Erstellen visueller KI-Agenten mit NVIDIA Cosmos Reason und NVIDIA Metropolis

FAQs

NIM beinhaltet eine Reihe von einfach zu bedienenden Mikroservices, die für die sichere und zuverlässige Bereitstellung von hochleistungsfähigen KI-Modellinferenzen in der Cloud, im Rechenzentrum und auf Workstations entwickelt wurden. Es unterstützt eine Vielzahl von KI-Modellen, darunter Modelle der Open-Source-Community und NVIDIA KI-Foundation-Modelle, um eine nahtlose, skalierbare KI-Inferenz – vor Ort oder in der Cloud – mit branchenüblichen APIs zu gewährleisten. Alle NIM-Microservices und zugehörige Vorschau-APIs finden Sie unter build.nvidia.com.

Besuchen Sie build.nvidia.com, um ein Konto zu erstellen und die verfügbaren NIM-Microservices zu erkunden. Sie können NVIDIA Cosmos Reason VLM NIM erkunden.

Testen Sie den NVIDIA AI Blueprint für Videosuche und Zusammenfassungen kostenlos.

Alle Benutzer können kostenlos mit den Vorschau-APIs auf build.nvidia.com beginnen. Jedes neue Konto kann bis zu 5.000 Credits erhalten, um die APIs auszuprobieren. Um die Entwicklung fortzusetzen, nachdem die Credits aufgebraucht sind, können Sie die herunterladbaren NIM-Microservices lokal auf Ihrer Hardware oder auf einer Cloud-Instanz bereitstellen. Entwickler können auch über das NVIDIA-Entwicklerprogramm auf NIM zugreifen. Einzelheiten finden Sie in diesen FAQ.

NVIDIA NIM kann von Entwicklern kostenlos ausprobiert werden. Um in den Produktivbetrieb überzugehen, benötigen herunterladbare NIM-Microservices eine NVIDIA-AI-Enterprise-Lizenz. Mehr dazu erfahren Sie auf dieser Seite .

Das NIM-Entwicklerforum ist der beste Ort, um Fragen zu stellen und mit unserer Entwickler-Community zu interagieren. Hier können Sie auf die Foren zugreifen.

Überblick
Technische Umsetzung von
FAQ

Bringen Sie eine neue Welle von Anwendungen ins Rollen

Herkömmliche Videoanalysen und ihre Entwicklungs-Workflows basieren in der Regel auf einer begrenzten Gruppe von Modellen mit festen Funktionen, die darauf ausgerichtet sind, vordefinierte Objekte zu erkennen und zu identifizieren. Mit generativen KI- und Grundlagenmodellen können Sie jetzt Anwendungen mit weniger Modellen erstellen. Diese weisen eine unglaublich komplexe und breite Wahrnehmung und ein umfassendes kontextuelles Verständnis auf. Diese neuere Generation von Vision Language Models (VLMs) führt zu intelligenten, leistungsstarken visuellen KI-Agenten.

Was ist ein Visual AI Agent?

Ein KI-Agent für die Videoanalyse kann sowohl Bild- als auch Sprachmodalitäten kombinieren, um Prompts in natürlicher Sprache zu verstehen und visuelle Beantwortungen von Fragen durchzuführen. Dazu zählt zum Beispiel die Beantwortung einer Vielzahl von Fragen in natürlicher Sprache, die sowohl auf ein aufgezeichnetes Video als auch einen Live-Video-Stream angewendet werden kann. Dieses tiefere Verständnis von Videoinhalten ermöglicht genauere und aussagekräftige Interpretationen, verbessert die Funktionalität von Videoanalyseanwendungen und die Analyse von realen Szenarien. Diese Agenten versprechen völlig neue Erkenntnisse und Möglichkeiten für die Automatisierung.

Optimieren Sie sämtliche industrielle Vorgänge

Quick-Links

Blog-Beitrag lesen: KI-Blueprint für Videosuche und -zusammenfassung ist jetzt verfügbar, um visuelle KI-Agenten in verschiedenen Branchen bereitzustellen

Blogbeitrag lesen: NVIDIA stellt Blueprint für KI-Agenten vor, die Videos analysieren können ›

Blogbeitrag lesen: Jede Branche kann jetzt große Mengen an visuellen Daten durchsuchen und zusammenfassen

Pegatron Anwendungsbeispiel lesen

Linker Vision Anwendungsbeispiel lesen

Mit NVIDIA NIM entwickeln

NVIDIA NIM ist ein Satz von Inferenz-Microservices, die branchenübliche APIs, domänenspezifischen Code, optimierte Inferenz-Engines und Enterprise Runtime umfassen. Er bietet mehrere VLMs für den Aufbau Ihres visuellen KI-Agenten, der Live- oder archivierte Bilder oder Videos verarbeiten kann, um verwertbare Erkenntnisse mit natürlicher Sprache zu extrahieren. Wir haben einen Referenz-Workflow eines visuellen KI-Agenten erstellt. Sie können ihn ausprobieren, um Ihren Entwicklungsprozess zu beschleunigen.

Quick-Links

Testen Sie den Visual AI Agent Reference Workflow

Erstellen Sie KI-Agenten mit NVIDIA AI Blueprint

Der NVIDIA AI Blueprint für Videosuche und -zusammenfassung (VSS) erleichtert die Entwicklung und Anpassung von KI-Agenten für die Videoanalyse – die alle von generativer KI, Vision-Sprachmodellen (VLMs), großen Sprachmodellen (LLMs) und NVIDIA NIM unterstützt werden. Die KI-Agenten für die Videoanalyse erhalten Aufgaben in natürlicher Sprache und können große Mengen von Videodaten verarbeiten, um wichtige Erkenntnisse zu gewinnen. Diese helfen einer Reihe von Branchen bei der Optimierung von Prozessen, der Verbesserung der Sicherheit und der Kostensenkung.

Die KI-Agenten, die auf der Grundlage des Blueprints entwickelt wurden, können Videodaten in großem Umfang analysieren, interpretieren und verarbeiten und so bis zu 200-mal schneller Videozusammenfassungen erstellen als bei einer manuellen Durchsicht der Videos. Der Blueprint kann die Entwicklung von KI-Agenten durch die Zusammenführung verschiedener generativer KI-Modelle und -Dienste beschleunigen und bietet durch eine Vielzahl von VLMs/LLMs von NVIDIA und Drittanbietern sowie optimierte Bereitstellungsoptionen vom Edge bis zur Cloud viel Flexibilität.

Quick Links

NVIDIA VIA Microservices herunterladen

Tech-Blog: Erstellen von Visual AI Agents mit NVIDIA VIA Microservices und NIM

Erstellen von Edge Agents mit Jetson Platform Services

Entwickler können visuelle KI-Agenten erstellen, die von der NVIDIA Jetson™ Edge AI-Plattform unterstützt werden, und zwar mithilfe der neuen Funktion von NVIDIA JetPack™– Jetson Platform Services. Die generative KI-Anwendung läuft vollständig auf einem NVIDIA Jetson Orin™-Gerät, das Ereignisse erkennen kann, um Warnmeldungen zu generieren und interaktive Fragen und Antworten-Runden zu ermöglichen.

Quick Links

Laden Sie den Referenz-Workflow für Jetson™ herunter

Tech-Blog: Entwickeln Sie generative KI-gestützte visuelle KI-Agenten für das Edge

NIM beinhaltet eine Reihe von einfach zu bedienenden Mikroservices, die für die sichere und zuverlässige Bereitstellung von hochleistungsfähigen KI-Modellinferenzen in der Cloud, im Rechenzentrum und auf Workstations entwickelt wurden. Es unterstützt eine Vielzahl von KI-Modellen, einschließlich Open-Source-Community-Modellen und NVIDIA-AI-Foundation-Modellen, um eine nahtlose, skalierbare KI-Inferenz – vor Ort oder in der Cloud – mit APIs nach Branchenstandard zu gewährleisten. Alle NIM-Microservices und zugehörige Vorschau-APIs finden Sie unter build.nvidia.com.

Um mit NIM-Microservices und NVIDIA AI Blueprints zu beginnen, besuchen Sie build.nvidia.com, um ein Konto zu erstellen und die verfügbaren NIM-Microservices zu erkunden. Sie können sich die verfügbaren VLM-NIMs hier ansehen.

Testen Sie den NVIDIA AI Blueprint für die Videosuche und -zusammenfassung kostenlos.

Das NIM-Entwicklerforum ist der beste Ort, um Fragen zu stellen und mit unserer Entwickler-Community zu interagieren. Hier können Sie auf die Foren zugreifen.

Erstellen von visuellen AI-Agenten

Erkunden Sie den Referenz-Workflow, der von mehreren Visual Language Models unterstützt wird, um Ihren visuellen AI-Agenten einfach zu erstellen.

Vision-Sprachmodelle auspobieren

VSS Blueprint entdecken

Entwickler in Aktion

Erstellen eines Agenten für die Suche und Zusammenfassung von Videos

Entdecken Sie den NVIDIA-AI-Blueprint für die Videosuche und -zusammenfassung und die Integration komplexer VLM, LLM und RAG mit unterstützenden Microservices.

Blogbeitrag lesen

Entwickeln von KI-Agenten für die Edge-Videoanalyse

Erkunden Sie VLM-basierte KI-Agenten für die Videoanalyse am Edge mit NVIDIA Jetson Platform Services.

Blogbeitrag lesen

Erstellen von fortschrittlichen KI-Agenten für die Videoanalyse

Entdecken Sie die neueste Verbesserung von NVIDIA AI Blueprint für die Videosuche und -zusammenfassung, die jetzt allgemein verfügbar ist.

Blogbeitrag lesen

Multimodale Echtzeit-XR-Apps entwickeln

Erfahren Sie, wie Sie NVIDIA AI Blueprint für die Videosuche und Zusammenfassung einsetzen, um Audio in einer XR-Umgebung zu unterstützen.

Blogbeitrag lesen

Alle VLM Tech-Blogs ansehen

Stellen Sie KI-Agenten vom Edge bis zur Cloud bereit.

Nutzen Sie die Leistung des VSS-Blueprints, um KI-Agenten nahtlos vom Edge bis zur Cloud bereitzustellen,

Beschleunigen Sie physische KI-Workloads mit GPUs der NVIDIA RTX PRO 6000 Blackwell Serie

Die GPUs der NVIDIA RTX PRO™ 6000 Blackwell Serie beschleunigen die physische KI, indem sie jeden Workload für die Roboterentwicklung in den Bereichen Training, Generierung synthetischer Daten, Roboterlernen und Simulation ausführen.

Mehr erfahren

NVIDIA Jetson Thor

Beschleunigen Sie die Zukunft der physischen KI und Robotik mit den Modulen der NVIDIA Jetson Thor-Serie, die bis zu 2070 FP4 TFLOPS KI-Rechenleistung und 128 GB Speicher liefern – und das alles in einem kompakten Formfaktor.

Learn More

NVIDIA DGX Spark

DGX™ Spark bringt die Leistungsfähigkeit von NVIDIA Grace Blackwell auf die Desktops von Entwicklern. Der GB10-Superchip in Kombination mit einem einheitlichen Systemspeicher von 128 GB ermöglicht KI-Forschern, Datenwissenschaftlern und Studierenden, mit KI-Modellen mit bis zu 200 Milliarden Parametern lokal zu arbeiten.

Mehr erfahren

Bringen Sie eine neue Welle von Anwendungen ins Rollen

Herkömmliche Videoanalysen und ihre Entwicklungs-Workflows basieren in der Regel auf einer begrenzten Gruppe von Modellen mit festen Funktionen, die darauf ausgerichtet sind, vordefinierte Objekte zu erkennen und zu identifizieren. Mit generativen KI- und Grundlagenmodellen können Sie jetzt Anwendungen mit weniger Modellen erstellen. Diese weisen eine unglaublich komplexe und breite Wahrnehmung und ein umfassendes kontextuelles Verständnis auf. Diese neuere Generation von Vision Language Models (VLMs) führt zu intelligenten, leistungsstarken visuellen KI-Agenten.

Was ist ein Visual AI Agent?

Optimieren Sie sämtliche industrielle Vorgänge

Quick-Links

Blog-Beitrag lesen: KI-Blueprint für Videosuche und -zusammenfassung ist jetzt verfügbar, um visuelle KI-Agenten in verschiedenen Branchen bereitzustellen

Blogbeitrag lesen: NVIDIA stellt Blueprint für KI-Agenten vor, die Videos analysieren können ›

Blogbeitrag lesen: Jede Branche kann jetzt große Mengen an visuellen Daten durchsuchen und zusammenfassen

Pegatron Anwendungsbeispiel lesen

Linker Vision Anwendungsbeispiel lesen

Mit NVIDIA NIM entwickeln

Quick-Links

Testen Sie den Visual AI Agent Reference Workflow

Erstellen Sie KI-Agenten mit NVIDIA AI Blueprint

Quick Links

NVIDIA VIA Microservices herunterladen

Tech-Blog: Erstellen von Visual AI Agents mit NVIDIA VIA Microservices und NIM

Erstellen von Edge Agents mit Jetson Platform Services

Quick Links

Laden Sie den Referenz-Workflow für Jetson™ herunter

Tech-Blog: Entwickeln Sie generative KI-gestützte visuelle KI-Agenten für das Edge

NIM beinhaltet eine Reihe von einfach zu bedienenden Mikroservices, die für die sichere und zuverlässige Bereitstellung von hochleistungsfähigen KI-Modellinferenzen in der Cloud, im Rechenzentrum und auf Workstations entwickelt wurden. Es unterstützt eine Vielzahl von KI-Modellen, einschließlich Open-Source-Community-Modellen und NVIDIA-AI-Foundation-Modellen, um eine nahtlose, skalierbare KI-Inferenz – vor Ort oder in der Cloud – mit APIs nach Branchenstandard zu gewährleisten. Alle NIM-Microservices und zugehörige Vorschau-APIs finden Sie unter build.nvidia.com.

Das NIM-Entwicklerforum ist der beste Ort, um Fragen zu stellen und mit unserer Entwickler-Community zu interagieren. Hier können Sie auf die Foren zugreifen.

Digital Twins for Physical AI Learning Path

Get started with essential foundations in developing OpenUSD-based digital twin applications and workflows for the era of physical AI.

Explore Curriculum

Videoanalyse-KI-Agenten

Bringen Sie eine neue Welle von Anwendungen ins Rollen

Was ist ein Visual AI Agent?

Optimieren Sie sämtliche industrielle Vorgänge

Entwicklung von KI-Agenten für Videoanalysen

Mit NVIDIA Cosmos Reason NIM entwickeln

Erstellen Sie KI-Agenten mit NVIDIA VSS Blueprint

Was ist ein NIM-Microservice?

Wie kann ich mit VLMs und dem NVIDIA AI Blueprint für die Videosuche und -zusammenfassung (VSS) beginnen?

Wie erhalte ich Credits für build.nvidia.com?

Muss ich für die Nutzung eines herunterladbaren NIM bezahlen?

Wie erhalte ich technischen Support beim Prototyping mit NIM-Microservices?

Bringen Sie eine neue Welle von Anwendungen ins Rollen

Was ist ein Visual AI Agent?

Optimieren Sie sämtliche industrielle Vorgänge

Mit NVIDIA NIM entwickeln

Erstellen Sie KI-Agenten mit NVIDIA AI Blueprint

Erstellen von Edge Agents mit Jetson Platform Services

Was ist ein NIM-Microservice?

Wie kann ich mit VLMs und dem NVIDIA AI Blueprint für die Videosuche und -zusammenfassung (VSS) beginnen?

Wie erhalte ich Credits für build.nvidia.com?

Muss ich für die Nutzung eines herunterladbaren NIM bezahlen?

Wie erhalte ich technischen Support beim Prototyping mit NIM-Microservices?

Erstellen von visuellen AI-Agenten

Entwickler in Aktion

Erstellen eines Agenten für die Suche und Zusammenfassung von Videos

Entwickeln von KI-Agenten für die Edge-Videoanalyse

Erstellen von fortschrittlichen KI-Agenten für die Videoanalyse

Multimodale Echtzeit-XR-Apps entwickeln

Stellen Sie KI-Agenten vom Edge bis zur Cloud bereit.

Beschleunigen Sie physische KI-Workloads mit GPUs der NVIDIA RTX PRO 6000 Blackwell Serie

NVIDIA Jetson Thor

NVIDIA DGX Spark

Ähnliche Erfolgsgeschichten

Bringen Sie eine neue Welle von Anwendungen ins Rollen

Was ist ein Visual AI Agent?

Optimieren Sie sämtliche industrielle Vorgänge

Mit NVIDIA NIM entwickeln

Erstellen Sie KI-Agenten mit NVIDIA AI Blueprint

Erstellen von Edge Agents mit Jetson Platform Services

Was ist ein NIM-Microservice?

Wie kann ich mit VLMs und dem NVIDIA AI Blueprint für die Videosuche und -zusammenfassung (VSS) beginnen?

Wie erhalte ich Credits für build.nvidia.com?

Muss ich für die Nutzung eines herunterladbaren NIM bezahlen?

Wie erhalte ich technischen Support beim Prototyping mit NIM-Microservices?

Digital Twins for Physical AI Learning Path