Telekommunikation

Weltklasse-Sprach-KI für herausragende Videokonferenzen

Ziel

Bereitstellung von genauen Echtzeit-Transkriptionen für Millionen von Videokonferenz-Nutzern zur Verbesserung der Geschäftseffizienz und Kundenzufriedenheit.

Kunde

RingCentral

Anwendungsfall

Transkriptionen in Echtzeit

Technologie

NVIDIA NeMo, NVIDIA Riva, NVIDIA Triton Inference Server, NVIDIA DGX A100, NVIDIA NeMo, NVIDIA Riva, NVIDIA Triton Inference Server

Genaue Transkriptionen verbessern die „Zusammenarbeit von überall“ aus

Angesichts von Hunderten von Millionen Online-Meetings, die täglich stattfinden, sind Videokonferenzen zu einem unverzichtbaren Tool für Unternehmen geworden. Videokonferenzanwendungen nutzen Echtzeit-Transkription, um Funktionen wie Live-Untertitelung und Zusammenfassungen von Sitzungen anzubieten. RingCentral, ein führender Anbieter von Unified-Communications-as-a-Service (UCaaS)-Lösungen, transkribiert über eine Milliarde Minuten Meetings für 200.000 aktuelle Benutzer auf seiner Plattform. Das Unternehmen suchte nach einer Transkriptionslösung, um mit verschiedenen Dialekten, domänenspezifischem Fachjargon und lauten Umgebungen genau und in Echtzeit umzugehen.

NVIDIA-Lösung

RingCentral hat NVIDIAs modernste, im Voraus trainierte Spracherkennungsmodelle auf proprietären benutzerdefinierten Daten mit NVIDIA NeMo – einem Open-Source-Framework für die Erstellung von KI-Modellen für Konversationen – fein abgestimmt. Die Modelle wurden in der Produktion mit NVIDIA Riva eingesetzt – einem GPU-beschleunigten SDK für die Bereitstellung von erstklassigen KI-basierten Sprachanwendungen.

Ergebnisse von RingCentral

Ergebnisse

  • Genauigkeit um mehr als 10 Prozent gesteigert

  • Bessere Qualität der Aufgaben nach der Transkription

Mit NVIDIA-Sprach-KI erzielte das RingCentral-Team beeindruckende Genauigkeit für Kunden mit verschiedenen Dialekten und Akzenten und unterschiedlichen domänenspezifischen Vokabularen. Die Wortfehlerrate (WER) wurde um über 10 Prozent reduziert. Kunden berichteten von enormen Unterschieden in der Qualität von Aufgaben nach Abschriften, wie z. B. bei der Zusammenfassung von Besprechungen und der Sentiment-Analyse von Videokonferenzen

„Mit NVIDIA® Riva Sprach-zu-Text können wir Meeting-Audio in Echtzeit mit hoher Genauigkeit transkribieren und gleichzeitig Tausende von Streams ausführen, was Millionen von RingCentral-Benutzern ein noch ansprechenderes Meeting-Erlebnis ermöglicht.“

Prashant Kukde,
Associate Vice President, RingCentral