eBook

Pipelines d’IA vocale de bout en bout

Découvrez une présentation détaillée de l’ASR et de la TTS, les deux principaux composants de l’IA vocale.

Que comprend cet eBook ?

La reconnaissance vocale automatique (ASR) et la synthèse vocale (TTS) sont les deux technologies d’IA vocale les plus importantes. Chacun de ces pipelines technologiques s’appuie sur des processus distincts tels que le prétraitement des données, l’utilisation de modèles avancés de Deep Learning et le post-traitement. Cet eBook présente les composants individuels de ces pipelines et dévoile comment évaluer les performances de ces technologies.

Formez-vous de manière rapide et optimale

Qu’est-ce que la reconnaissance vocale automatique

La reconnaissance vocale automatique (ASR), également connue sous le nom de transcription textuelle, désigne le processus de conversion automatique de l’audio en forme écrite.

Comment fonctionne un système d’IA vocale ?

Qu’est-ce que la synthèse vocale ?

La synthèse vocale (TTS), également connue sous le nom de transcription vocale, désigne le processus de traitement d’un texte d’entrée pour générer une voix humaine de synthèse.

Comment l’IA vocale est-elle utilisée à l’échelle industrielle ?

Comment évaluer l’ASR et la TTS ?

Des métriques telles que le taux d’erreur des mots (WER) et le score d’opinion moyen (MOS) sont respectivement utilisées pour évaluer les performances des pipelines d’ASR et de TTS.

Inscrivez-vous pour accéder au téléchargement

Envoyez-moi les dernières informations et annonces liées aux solutions commerciales NVIDIA d’entreprise.
Envoyez-moi les dernières informations et annonces liées aux technologies et outils NVIDIA pour les développeurs.

Envoyez-moi les dernières informations et annonces liées aux solutions commerciales NVIDIA d’entreprise et aux technologies et outils NVIDIA pour les développeurs.

Envoyez-moi les dernières informations et annonces liées aux solutions NVIDIA pour :