Sprach-KI

Bieten Sie sprachbasierte Schnittstellen für Ihre Gesprächs-KI-Anwendungen.


Was ist Sprach-KI?

Sprach-KI gibt Menschen die Möglichkeit, sich mit Geräten, Maschinen und Computern zu unterhalten, um ihre Arbeit zu vereinfachen und zu verbessern. Als Untergruppe der Gesprächs-KI umfasst sie automatische Spracherkennung (ASR) und Text-to-Speech (TTS), um die menschliche Stimme in Text zu konvertieren und aus geschriebenen Wörtern eine menschenähnliche Stimme zu generieren. So sind leistungsstarke Technologien wie virtuelle Assistenten, Echtzeittranskriptionen, Sprachsuchen und Fragenbeantwortungssysteme möglich.

Die Vorteile der Verwendung von Sprach-KI.

Erstklassige Genauigkeit.

Optimieren Sie die Nutzererfahrung mit erstklassiger Genauigkeit durch Anpassung von Sprach-KI-Modellen.

Unterstützung mehrerer Sprachen.

Erweitern Sie Ihre Kundenbasis, indem Sie sprachbasierte Anwendungen in den Sprachen anbieten, die Ihre Kunden sprechen.

Hohe Leistung und Skalierbarkeit

Bedienen Sie mehr Kunden mit Anwendungen mit geringer Latenz und hohem Durchsatz, die sich sofort auf jede Infrastruktur skalieren lassen: lokal, in der Cloud, in der Peripherie oder eingebettet.

Eine einzigartige, natürliche Stimme für Ihre Marke.

Verbessern Sie Ihren Kundenservice, indem Sie schnelle und sinnvolle Interaktionen mit der einzigartigen Stimme Ihrer Marke ermöglichen.

Kostenloses E-Book: Erstellen von Sprach-KI-Anwendungen

Erfahren Sie, wie Sie Echtzeit-Sprach-KI-Pipelines für Ihre Gesprächs-KI-Anwendung erstellen und bereitstellen.

So wird Sprach-KI eingesetzt.

Mehrere Sprecher gleichzeitig transkribieren.

Moderne Speech-to-Text-Algorithmen können Meetings, Vorträge und soziale Interaktionen transkribieren und dabei die jeweiligen Sprecher erkennen sowie ihre Beiträge kennzeichnen. Mit Sprach-KI-Technologien und SDKs von NVIDIA können Sie genaue Transkriptionen für Callcenter-Gespräche und Videokonferenzen erstellen und die Anfertigung klinischer Notizen bei Arzt-Patienten-Gesprächen automatisieren.

Machen Sie Ihre Assistenten virtuell.

Virtuelle Assistenten kommunizieren über eine Sprachschnittstelle mit den Benutzern und unterstützen bei verschiedenen Aufgaben – von der Lösung von Kundenproblemen in Callcentern über das Einschalten des Fernsehers als Smarthome-Assistent bis hin zur Navigation zur nächsten Tankstelle als intelligenter Fahrzeugassistent. Nutzen Sie die NVIDIA Omniverse Avatar Cloud Engine (ACE) zur Integration von NVIDIA-Sprach-KI-Technologien für benutzerfreundliche, Deep-Neural-Network-basierte Komponenten in Ihre interaktiven Avatar-Anwendungen, um genaue, schnelle und natürliche Interaktionen zu ermöglichen.

Machen Sie Ihre Stimme zu Ihrem Markenzeichen.

Mit einer Markenstimme mit Wiedererkennungswert können Unternehmen Anwendungen erstellen, die Beziehungen zu Kunden aufbauen und gleichzeitig alle Kunden unterstützen, auch solche mit Sprech- und Sprachdefiziten. Mit NVIDIA Custom Voice, Teil der Sprach-KI, können Sie ganz einfach schon mit 30 Minuten aufgezeichneter Sprachdaten innerhalb weniger Stunden statt Wochen eine einzigartige, hochwertige Sprachpersönlichkeit für Ihre Marke erstellen.

Entwickeln Sie anpassbare Sprach-KI-Schnittstellen.

Verkürzen Sie das Training mit vorab trainierten Modellen.

Moderne Sprach-KI-Systeme verwenden DNN-Modelle (Deep Neural Network), die mit riesigen Datensätzen trainiert werden. Im Laufe der Zeit ist die Größe der Sprach-KI-Modelle derart angewachsen, dass das Trainieren solcher Modelle Wochen intensiver Rechenzeit erfordern kann, selbst wenn Deep-Learning-Frameworks wie PyTorch, TensorFlow und MXNet auf Hochleistungs-GPUs verwendet werden.

Sprach-KI von NVIDIA bietet im NVIDIA NGC™-Katalog vortrainierte Modelle in Produktionsqualität, die über Hunderttausende Stunden auf NVIDIA DGX™-Systemen mit mehreren öffentlichen und proprietären Datensätzen trainiert werden.

Abbildung 1: Hochpräzise, vorab trainierte Modelle.

Abbildung 2: Durchgängiger TAO Toolkit-Workflow.

Passen Sie Modelle für eine höhere Genauigkeit an.

Viele Unternehmen müssen Sprach-KI-Modelle anpassen, um die gewünschte Genauigkeit für ihre spezifischen Gesprächsanwendungen zu erzielen. Um Sprach-KI-Modelle jedoch von Grund auf anzupassen, sind in der Regel große Trainingsdatensätze und KI-Expertise erforderlich.

Um die Entwicklung zu beschleunigen und Sprachmodelle ohne vorherige KI-Erfahrung hochgradig anzupassen, können Sie das NVIDIA TAO Toolkit verwenden, ein Low-Code-Toolkit für die KI-Modellentwicklung. Es wendet einen bewährten Transfer Learning-Ansatz auf ein vorab trainiertes Modell an und verfeinert Sprach-KI-Modelle für Ihren Anwendungsfall. NVIDIA bietet außerdem NeMo, ein Open-Source-Toolkit für Forscher, um Sprach-KI-Modelle auf aktuellstem technischen Stand (SOTA) zu erstellen. Mit NeMo und dem TAO Toolkit optimierte Modelle können einfach in NVIDIA® Riva exportiert und lokal oder in der Cloud als Sprachdienst bereitgestellt werden.

Schaffen Sie natürliche Interaktionen, indem Sie Echtzeitfähigkeiten entwickeln.

Bei Sprach-KI-Fähigkeiten mussten Unternehmen immer zwischen Genauigkeit und Echtzeitleistung wählen. Sie können beispielsweise keine Fragen stellen und dann einige Sekunden auf eine Antwort warten. Darüber hinaus sollen Gesprächs-KI-Anwendungen nichts falsch interpretieren oder Kauderwelsch erzeugen.

Mit NVIDIA Riva können Unternehmen erstklassige Genauigkeit erreichen und ihre Sprach-KI-Pipelines in Echtzeit ausführen – innerhalb weniger Millisekunden. Riva bietet auf NGC vorab trainierte SOTA-Modelle und Low-Code-Tools wie das TAO Toolkit für die Feinanpassung, um erstklassige Genauigkeit und optimierte Fähigkeiten für Echtzeitleistung zu erzielen.

Abbildung 3:  Sprach-KI-Fähigkeiten von NVIDIA Riva

Entdecken Sie die neuesten Durchbrüche in der Sprach-KI.

Sprach-KI wird mehrsprachig.

Sprach-KI-Anwendungen und -Pipelines müssen mehrere Sprachen, Dialekte und Akzente verstehen, um auf der ganzen Welt eingesetzt werden zu können. Zum Beispiel sprechen Menschen in den USA und den meisten anderen Ländern unterschiedliche Sprachen. In Anwendungsfällen wie in Callcentern gibt es Fälle, in denen Kunden mehr als eine Sprache verwenden, um zu beschreiben, was vor sich geht. Der nächste Schritt besteht in Sprach-KI-Anwendungen, die diese Situationen bewältigen können.

Entwickler können für jede Sprache separate Sprachmodelle verwenden, oder ein einzelnes Modell, das mehr als eine Sprache verarbeiten kann. Erfahren Sie auf der Seite Spracherkennungssammlungen mehr über ASR-Modelle in verschiedenen Sprachen.

Sprach-KI von der Cloud ins Gerät verlagern.

Als Unternehmen damit begannen, Sprach-KI zu nutzen, nutzten alle Cloud-Dienste, weil sie einfach einzurichten und zu verwenden sind. Allmählich stiegen Unternehmen auf lokale Lösungen um, um Datenschutzprobleme zu vermeiden. On-Device-Lösungen sind nun der neueste Durchbruch, nicht nur um Daten geschützt zu halten, sondern auch für schnellere Inferenz und Kosteneinsparungen. 

Mit NVIDIA Riva können Anwendungen in eingebetteten, Rechenzentrums- und Cloud-Umgebungen bereitgestellt werden, um anpassbare Sprach-KI-Schnittstellen für Ihre Gesprächs-KI-Anwendung zu entwickeln.

Greifen Sie auf Bildungsressourcen zu.

Erhalten Sie eine Einführung in die Sprach-KI.

Lernen Sie die Kernkonzepte von Sprach-KI kennen und erfahren Sie, wie Sie Sprachtechnologieanwendungen erstellen und bereitstellen.

Entmystifizieren Sie Gesprächs-KI.

Erfahren Sie, wie Sie Sprach-KI zu Gesprächs-KI-Apps hinzufügen und sie beim Training und der Inferenzzeit anpassen können.

Sprach-KI-Blogs durchsuchen.

Erfahren Sie, was Sprach-KI ist, wie sie sich im Laufe der Zeit verändert hat, was die wichtigsten Komponenten, Herausforderungen und Anwendungsfälle sind und was Sprach-KI-SDKs von NVIDIA bieten.

Sehen Sie sich NVIDIA Riva genauer an.

Lernen Sie die wichtigsten Funktionen von NVIDIA Riva kennen, die Sie beim Erstellen von Sprach-KI-Diensten unterstützen können.

Registrieren und aktuelle Neuigkeiten zur Gesprächs-KI von NVIDIA erhalten.