Télécommunications

IA vocale de premier ordre pour une expérience de visioconférence incomparable

Objectif

Fournir des transcriptions précises en temps réel à des millions d'utilisateurs de vidéoconférences, en améliorant l'efficacité commerciale et la satisfaction client.

Client

RingCentral

Utilisation

Transcriptions en temps réel

Technologie

NVIDIA DGX A100, NVIDIA NeMo, NVIDIA Riva, Serveur d'inférence NVIDIA Triton

Des transcriptions précises améliorent le travail depuis n’importe où (“Work from Anywhere”)

Alors que des centaines de millions de réunions se tiennent en ligne chaque jour, les technologies de visioconférence sont aujourd'hui devenues un outil essentiel pour les entreprises. Les applications de vidéoconférence utilisent la transcription en temps réel pour offrir des fonctionnalités telles que le sous-titrage en direct et les résumés de réunion. RingCentral, un des principaux fournisseurs de solutions de communication unifiée en tant que service (UCaaS), transcrit plus d'un milliard de minutes de réunions pour 200 000 utilisateurs simultanés sur sa plateforme. L'entreprise recherchait une solution de transcription pour gérer avec précision et en temps réel divers accents, la terminologie spécifique à un domaine donné et les environnements bruyants.

Solution NVIDIA

RingCentral a affiné les modèles de reconnaissance vocale pré-entraînés de NVIDIA sur des données propriétaires personnalisées avec NVIDIA NeMo, un framework open-source pour la création de modèles d'IA conversationnelle. Ces modèles ont été déployés en production à l'aide de NVIDIA Riva, un SDK accéléré par GPU pour déployer des applications de reconnaissance vocale basées sur l'IA de classe mondiale.

Résultats de RingCentral

Résultats

  • Précision augmentée de plus de 10 %

  • Meilleure qualité des tâches préalables à une transcription

Grâce à l'IA vocale de NVIDIA, l'équipe de RingCentral a atteint une précision impressionnante pour les clients ayant un accent et utilisant un vocabulaire spécifique à leur domaine, en réduisant le taux d'erreurs de mots (WER) de plus de 10 %. Les clients ont signalé des différences significatives dans la qualité des tâches préalables à une transcription, telles que la synthèse de réunion et l’analyse des sentiments dans les sessions de vidéoconférences et les centre d’appels.

"Grâce à la synthèse vocale de NVIDIA® Riva, nous sommes en mesure de transcrire le contenu audio d'une réunion en temps réel avec une grande précision tout en exécutant simultanément des milliers de flux, ce qui se traduit par des expériences de réunion plus engageantes pour des millions d'utilisateurs de RingCentral."

Prashant Kukde
Vice-président associé, RingCentral