Multimodale Gesprächs-KI

Beschleunigen Sie die gesamte Pipeline, von der automatischen Spracherkennung bis hin zu natürlichem Sprachverständnis und Text-to-Speech-Konversion.

KI-gestützte Dienste in Sprache, Bilderkennung und Linguistik stellen eine Revolution für personalisierte, natürliche Gespräche dar. Sie müssen jedoch für Echtzeitinteraktivität strenge Präzisions-und Latenzanforderungen erfüllen. Mit der Gesprächs-KI-Plattform von NVIDIA können Entwickler schnell hochmoderne KI-Dienste entwickeln, um Anwendungen innerhalb einer einheitlichen Architektur zu versorgen. Dadurch können hochpräzise Systeme mit geringer Latenz ohne große Vorabinvestitionen entwickelt werden.

 
Conversational AI Models From NGC

Modernste Modelle

Nutzen Sie Gesprächs-KI-Modelle von NGC™, die mehr als 100.000 Stunden lang auf NVIDIA DGX-Systemen trainiert werden.

Multinodal Solutions to Build Human-Like Interactive Skills

Individuelle multimodale Fähigkeiten

Sprache, Linguistik und Bilderkennung können mühelos in eine einzige Pipeline integriert werden, um annähernd menschliche interaktive Kompetenz zu entwickeln.

Deploy Optimized Models in the Cloud & Data Center

Schnelle Implementierung

Implementieren Sie optimierte Modelle mit einem einzigen Befehl in der Cloud, im Rechenzentrum und in der Peripherie.

End-to-End Acceleration to Execute Model Inference Under the 300ms latency Bound

Ende-zu-Ende-Beschleunigung

Beschleunigung auf Pipeline-Ebene und Modellinferenz mit einer Latenz von weniger als 300 Millisekunden (ms).

Echte Ende-zu-Ende-Beschleunigung

Vollständig beschleunigte Pipeline

Vollständige Pipelineinferenz im Bruchteil einer Sekunde

Führen Sie mit weniger als 300 ms Latenz vollständige Gesprächs-KI-Pipelines aus, mit automatischer Spracherkennung (ASR) für Audiotranskription, Verständnis für natürliche Sprache (NLU) und Text-to-Speech (TTS). Diese platzsparende Echtzeitinteraktivität ermöglicht eine höhere Pipelinekomplexität ohne Einbußen bei der Nutzererfahrung.

Die NVIDIA A100 Tensor Core GPU erzielte im MLPerf Training v0.7-Benchmark eine Rekordleistung von 6,53 Stunden pro Beschleuniger in BERT auf WikiText und 0,83 Minuten im großen Maßstab.

NVIDIA-Lösungen für
Gesprächs-KI-Anwendungen

Training und Implementierung mit speziell entwickelten Systemen

Training in großem Maßstab

Das NVIDIA DGX™ A100 enthält acht NVIDIA A100 Tensor Core-GPUs – die fortschrittlichsten je gebauten Grafikbeschleuniger für Rechenzentren. Tensor Float 32-Präzision (TF32) steigert die KI-Leistung gegenüber früheren Generationen um das 20-Fache – ohne Veränderungen am Code. Zusätzlich bietet sie eine zweifache Leistungssteigerung durch die Ausnutzung von Structural Sparsity in üblichen NLP-Modellen. NVIDIA® NVLink® der dritten Generation, NVIDIA NVSwitch™ der zweiten Generation und NVIDIA Mellanox® InfiniBand ermöglichen eine extrem hohe Bandbreite und Verbindungen mit geringer Latenz zwischen allen Grafikprozessoren. Dadurch können mehrere DGX A100-Systeme riesige Modelle mit Milliarden von Parametern vollumfänglich trainieren, um marktführende Genauigkeit zu liefern. Mit dem Open-Source-Toolkit NVIDIA NeMo™ können Entwickler mit nur wenigen Zeilen Code DGX-beschleunigte Gesprächs-KI-Modelle erstellen, trainieren und verfeinern.

NVIDIA DGX A100 – universelle Systeme für KI-Infrastruktur
NVIDIA EGX™ A100 ermöglicht die Verwendung von Gesprächs-KI in Echtzeit

Implementierung in der Peripherie

Das NVIDIA EGX Platform ermöglicht die Nutzung von Gesprächs-KI in Echtzeit. Die Verarbeitung großer Datenvolumen an Sprache und Linguistik in der Peripherie eliminiert dabei die Netzwerklatenz. Mit NVIDIA TensorRT™ können Entwickler Modelle für Inferenz optimieren und Gesprächs-KI-Anwendungen mit geringer Latenz und hoher Leistung bereitstellen. Mit dem NVIDIA Triton™ Inference Server können die Modelle anschließend in der Produktion eingesetzt werden. TensorRT und Triton Inference Server arbeiten mit NVIDIA Jarvis, einem Anwendungs-Framework für Gesprächs-KI. Sie ermöglichen somit die Entwicklung und Bereitstellung GPU-beschleunigter, multimodaler Ende-zu-Ende-Pipelines auf EGX. Jarvis steuert TensorRT, konfiguriert den Triton Inference Server und veröffentlicht Dienste über eine Standard-API, indem er sie mit einem einzelnen Befehl über Helm Charts auf einem Kubernetes Cluster bereitstellt.

KI-beschleunigte multimodale Fähigkeiten

Transkription mit mehreren Sprechern

Klassische Text-to-Speech-Algorithmen wurden weiterentwickelt, sodass es nun möglich ist, Meetings, Vorträge und soziale Interaktionen zu transkribieren und dabei die jeweiligen Sprecher zu erkennen sowie ihre Beiträge zu kennzeichnen. NVIDIA Jarvis ermöglicht die Verschmelzung von Audio- und Videodaten mehrerer Sensoren in einem einzigen Informationsfluss für fortschrittliche Transkriptionskomponenten wie Visual Diarization, welche erforderlich ist, um mehrere Stimmen in Echtzeit zu unterscheiden.

 
 

Virtueller Assistent

Virtuelle Assistenten können auf nahezu menschliche Art und Weise mit Kunden interagieren, was bei Kundeninformationszentren, smarten Lautsprechern und intelligenten Assistenten in Fahrzeugen zum Tragen kommt. KI-Gestützte Dienste wie Spracherkennung, Sprachverständnis, Sprachsynthese und Vocoding sind für ein solches System nicht ausreichend, da wichtige Bestandteile wie Dialogverfolgung fehlen. Jarvis ergänzt diese grundlegenden Dienste mit einfach zu bedienenden Komponenten, die für jede Anwendung erweitert werden können.

Beschleunigung für Unternehmen und Entwicklerbibliotheken

  • Ökosystempartner
  • Entwicklerbibliotheken

GPU-Beschleunigung für führende Sprach-, Bilderkennungs- und Linguistik-Workflows, um den Anforderungen von Unternehmen gerecht zu werden.

InstaDeep
Intelligent Voice
Kensho
MeetKai
MTS
NetApp
QuantiPhi
Siminsights
Voca.ai

Beliebte Gesprächs-KI-Bibliotheken zum Bauen von grafikprozessorbeschleunigten, hochmodernen Deep Learning-Modellen

DeepPavlov
ESPNet
Hugging Face
Ludwig
PerceptiLabs
SpaCy
RASA

Anwendungsbeispiele

Curai-Plattform verbessert Patientenerfahrung

Chatbasierte App verbessert Patientenerfahrung

Durch die Verarbeitung natürlicher Sprache ermöglicht es die Plattform von Curai den Patienten, Ärzten ihre Beschwerden zu vermitteln und auf ihre eigene Krankenakte zuzugreifen. Gesundheitsdienstleistern hilft sie dabei, Daten aus medizinischen Gesprächen für eine angemessene Behandlung zu extrahieren.

Square rundet Gesprächs-KI mithilfe von GPUs ab

Square rundet Gesprächs-KI mithilfe von GPUs ab

Erfahren Sie mehr über Square Assistant, eine Gesprächs-KI-Engine, die es kleinen Unternehmen ermöglicht, effizienter mit ihren Kunden zu kommunizieren.

Transformation von Finanzdienstleistungen mit Gesprächs-KI

Transformation von Finanzdienstleistungen mit Gesprächs-KI

Erfahren Sie, wie die erfolgreiche Implementierung in einem Unternehmen Aussehen sollte und wie Sie Ihr Unternehmen mit ROI teilhaben lassen können.

Machen Sie heute noch den ersten Schritt mit beschleunigter Gesprächs-KI

KI-Modelle mit dem NVIDIA NeMo Framework trainieren

Trainingsprogramme auf NVIDIA DGX A100-Systemen

Das NVIDIA Jarvis Framework vereinfacht die Implementierung

Bereitstellung in der Peripherie mit NVIDIA EGX A100-Systemen