E-Book

Pipelines mit End-to-End-Sprach-KI

Eine ausführliche Erklärung zu ASR und TTS, den beiden Hauptkomponenten der Sprach-KI.

Was ist in diesem E-Book enthalten?

Automatische Spracherkennung (Automatic Speech Recognition, ASR) und Text-to-Speech (TTS) sind die beiden wichtigsten Technologien für Sprach-KI. Jede dieser technologischen Pipelines umfasst mehrere Stufen, z. B. die Vorverarbeitung von Daten, Deep-Learning-Modelle und die Nachverarbeitung. In diesem E-Book wird erläutert, was bei jedem der einzelnen Bestandteile passiert und wie die Leistung dieser Technologien bewertet werden kann.

Schneller und einfacher fortbewegen

Was ist Automatische Spracherkennung?

ASR, auch Bekannt als Sprache-zu-Text, ist das Verfahren zur automatischen Umwandlung von gesprochenem Audio in geschriebene Form.

Wie funktioniert ein System mit Sprach-KI?

Was ist Text-to-Speech?

TTS, auch bekannt als Sprachsynthese, nutzt Text als Eingabe und generiert daraus eine menschenähnliche synthetisierte Stimme.

Wie wird Sprach-KI in verschiedenen Branchen eingesetzt?

Wie kann ich ASR und TTS bewerten?

Metriken wie Word Error Rate (WER) und Mean Opinion Score (MOS) werden verwendet, um die Leistung von ASR- und TTS-Pipelines zu bewerten.

Melden Sie sich für den Download an

Ich möchte aktuelle Neuigkeiten, Ankündigungen und weitere Informationen von NVIDIA zu Business-Lösungen für Unternehmen erhalten.
Ich möchte aktuelle Neuigkeiten, Ankündigungen und weitere Informationen von NVIDIA zu Entwicklertechnologie & Tools erhalten.

Ich möchte aktuelle Neuigkeiten, Ankündigungen und weitere Informationen von NVIDIA zu Business-Lösungen für Unternehmen und Entwicklertechnologie & Tools erhalten.

Ich möchte aktuelle Neuigkeiten, Ankündigungen und weitere Informationen von NVIDIA zu folgenden Themen erhalten: