Una explicación en profundidad de ASR y TTS, los dos componentes principales de la IA de habla.
El reconocimiento de voz automático (ASR) y el texto a voz (TTS) son las dos tecnologías de IA de habla más esenciales. Cada una de estas canalizaciones tecnológicas incluye varias etapas, como el preprocesamiento de datos, los modelos de deep learning y el posprocesamiento. Este libro electrónico detalla lo que ocurre en cada uno de sus componentes individuales y cómo evaluar el rendimiento de estas tecnologías.
ASR, también conocido como voz a texto, es el proceso de convertir automáticamente el audio hablado en forma escrita.
TTS, también conocido como síntesis de voz, toma el texto como entrada y genera una voz sintetizada como la humana.
Las métricas, como la tasa de errores de palabras (WER) y la puntuación de opinión media (MOS), se utilizan para evaluar el rendimiento de las canalizaciones ASR y TTS, respectivamente.