Una spiegazione approfondita di ASR e TTS, i due componenti principali dell'IA vocale.
Il riconoscimento vocale automatico (ASR) e il text-to-speech (TTS) sono le due tecnologie di IA vocale più importanti. Ciascuno di questi flussi tecnologici include più fasi, come la pre-elaborazione dei dati, i modelli di deep learning e la post-elaborazione. Questo e-book descrive in dettaglio cosa succede in ciascuno dei singoli componenti e come valutare le prestazioni di queste tecnologie.
ASR, noto anche come speech-to-text, è il processo di conversione automatica dell'audio parlato in forma scritta.
Il TTS, noto anche come sintesi vocale, prende un testo come input e genera una voce sintetizzata simile al a quella dell'uomo.
Le metriche, come il tasso di errore per parola (WER) e il punteggio medio di opinione (MOS), vengono utilizzate rispettivamente per valutare le prestazioni dei flussi di ASR e TTS.