Eine ausführliche Erklärung zu ASR und TTS, den beiden Hauptkomponenten der Sprach-KI.
Automatische Spracherkennung (Automatic Speech Recognition, ASR) und Text-to-Speech (TTS) sind die beiden wichtigsten Technologien für Sprach-KI. Jede dieser technologischen Pipelines umfasst mehrere Stufen, z. B. die Vorverarbeitung von Daten, Deep-Learning-Modelle und die Nachverarbeitung. In diesem E-Book wird erläutert, was bei jedem der einzelnen Bestandteile passiert und wie die Leistung dieser Technologien bewertet werden kann.
ASR, auch Bekannt als Sprache-zu-Text, ist das Verfahren zur automatischen Umwandlung von gesprochenem Audio in geschriebene Form.
TTS, auch bekannt als Sprachsynthese, nutzt Text als Eingabe und generiert daraus eine menschenähnliche synthetisierte Stimme.
Metriken wie Word Error Rate (WER) und Mean Opinion Score (MOS) werden verwendet, um die Leistung von ASR- und TTS-Pipelines zu bewerten.