Beschleunigen Sie die gesamte Pipeline, von der Spracherkennung über das Sprachverständnis bis hin zur Sprachsynthese
KI-gestützte Dienste in Sprache, Bilderkennung und Linguistik stellen eine Revolution für personalisierte, natürliche Gespräche dar. Sie müssen jedoch für Echtzeitinteraktivität strenge Präzisions-und Latenzanforderungen erfüllen. Mit der Gesprächs-KI-SDK von NVIDIA können Entwickler schnell hochmoderne multimodale KI-Dienste entwickeln, um Anwendungen innerhalb einer einheitlichen Architektur zu versorgen. Dadurch können hochpräzise Systeme mit geringer Latenz ohne große Vorabinvestitionen entwickelt werden.
Nutzen Sie Gesprächs-KI-Modelle von NGC™, die mehr als 100.000 Stunden lang mit verschiedenen freien und proprietären Datensätzen auf NVIDIA DGX™-Systemen trainiert werden.
Passen Sie Gesprächs-, Sprach- und Sehfähigkeiten in Ihrer Domäne mit dem Transfer Learning-Toolkit an.
Implementieren Sie optimierte Modelle mit einem einzigen Befehl in der Cloud, im Rechenzentrum und in der Peripherie.
Beschleunigung auf Pipeline-Ebene und Modellinferenz mit einer Latenz von weniger als 300 Millisekunden (ms).
Führen Sie mit weniger als 300 ms Latenz vollständige Gesprächs-KI-Pipelines aus, mit automatischer Spracherkennung (ASR) für Audiotranskription, Verständnis für natürliche Sprache (NLU) und Text-to-Speech (TTS). Diese platzsparende Echtzeitinteraktivität ermöglicht eine höhere Pipelinekomplexität ohne Einbußen bei der Nutzererfahrung.
Die NVIDIA A100 Tensor Core GPU erzielte im MLPerf Training v0.7-Benchmark eine Rekordleistung von 6,53 Stunden pro Beschleuniger in BERT auf WikiText und 0,83 Minuten im großen Maßstab.
Beschleunigen Sie die Entwicklungszeit mit vortrainierten Modellen von NVIDIA und dem Transfer Learning-Toolkit um das 10-Fache.
Gelangen Sie schneller zur Lösung, mithilfe leistungsstarker Sprachmodelle mit Milliarden von Parametern und unübertroffener Geschwindigkeit und Skalierbarkeit.
Implementieren Sie optimierte Gesprächs-KI-Modelle für maximale Leistung in der Cloud, im Rechenzentrum und in der Peripherie.
Echtzeitgespräche ohne Netzwerklatenz dank der Verarbeitung großer Datenvolumen an Sprache und Linguistik in der Peripherie.
Das NVIDIA DGX™ A100 enthält acht NVIDIA A100 Tensor Core-GPUs – die fortschrittlichsten je gebauten Grafikbeschleuniger für Rechenzentren. Tensor Float 32-Präzision (TF32) steigert die KI-Leistung gegenüber früheren Generationen um das 20-Fache – ohne Veränderungen am Code. Zusätzlich bietet sie eine zweifache Leistungssteigerung durch die Ausnutzung von Structural Sparsity in üblichen NLP-Modellen. NVIDIA® NVLink® der dritten Generation, NVIDIA NVSwitch™ der zweiten Generation und NVIDIA Mellanox® InfiniBand ermöglichen eine extrem hohe Bandbreite und Verbindungen mit geringer Latenz zwischen allen Grafikprozessoren. Dadurch können mehrere DGX A100-Systeme riesige Modelle mit Milliarden von Parametern vollumfänglich trainieren, um marktführende Genauigkeit zu liefern. Mit dem Open-Source-Toolkit NVIDIA NeMo™ können Entwickler mit nur wenigen Zeilen Code DGX-beschleunigte Gesprächs-KI-Modelle erstellen, trainieren und verfeinern.
Das NVIDIA EGX™ Platform ermöglicht die Nutzung von Gesprächs-KI in Echtzeit. Die Verarbeitung großer Datenvolumen an Sprache und Linguistik in der Peripherie eliminiert dabei die Netzwerklatenz. Mit NVIDIA TensorRT™ können Entwickler Modelle für Inferenz optimieren und Gesprächs-KI-Anwendungen mit geringer Latenz und hoher Leistung bereitstellen. Mit dem NVIDIA Triton™ Inference Server können die Modelle anschließend in der Produktion eingesetzt werden. TensorRT und Triton Inference Server arbeiten mit NVIDIA Riva, einem Anwendungs-Framework für Gesprächs-KI. Sie ermöglichen somit die Entwicklung und Bereitstellung GPU-beschleunigter, multimodaler Ende-zu-Ende-Pipelines auf EGX. Riva steuert TensorRT, konfiguriert den Triton Inference Server und veröffentlicht Dienste über eine Standard-API, indem er sie mit einem einzelnen Befehl über Helm Charts auf einem Kubernetes Cluster bereitstellt.
Klassische Text-to-Speech-Algorithmen wurden weiterentwickelt, sodass es nun möglich ist, Meetings, Vorträge und soziale Interaktionen zu transkribieren und dabei die jeweiligen Sprecher zu erkennen sowie ihre Beiträge zu kennzeichnen. NVIDIA Riva ermöglicht die Verschmelzung von Audio- und Videodaten mehrerer Sensoren in einem einzigen Informationsfluss für fortschrittliche Transkriptionskomponenten wie Visual Diarization, welche erforderlich ist, um mehrere Stimmen in Echtzeit zu unterscheiden.
Virtuelle Assistenten können auf nahezu menschliche Art und Weise mit Kunden interagieren, was bei Kundeninformationszentren, smarten Lautsprechern und intelligenten Assistenten in Fahrzeugen zum Tragen kommt. KI-Gestützte Dienste wie Spracherkennung, Sprachverständnis, Sprachsynthese und Vocoding sind für ein solches System nicht ausreichend, da wichtige Bestandteile wie Dialogverfolgung fehlen. Riva ergänzt diese grundlegenden Dienste mit einfach zu bedienenden Komponenten, die für jede Anwendung erweitert werden können.
GPU-Beschleunigung für führende Sprach-, Bilderkennungs- und Linguistik-Workflows, um den Anforderungen von Unternehmen gerecht zu werden.
Erstellen Sie mit beliebten Gesprächs-KI-Bibliotheken grafikprozessorbeschleunigte, hochmoderne Deep Learning-Modelle.
Durch die Verarbeitung natürlicher Sprache ermöglicht es die Plattform von Curai den Patienten, Ärzten ihre Beschwerden zu vermitteln und auf ihre eigene Krankenakte zuzugreifen. Gesundheitsdienstleistern hilft sie dabei, Daten aus medizinischen Gesprächen für eine angemessene Behandlung zu extrahieren.
Erfahren Sie mehr über Square Assistant, eine Gesprächs-KI-Engine, die es kleinen Unternehmen ermöglicht, effizienter mit ihren Kunden zu kommunizieren.
Erfahren Sie, wie die erfolgreiche Implementierung in einem Unternehmen Aussehen sollte und wie Sie Ihr Unternehmen mit ROI teilhaben lassen können.
Stay tuned for data science news and content, delivered straight to your inbox.
Send me the latest enterprise news, announcements, and more from NVIDIA. I can unsubscribe at any time.