Telecomunicaciones

IA de voz de primera categoría para disfrutar de la mejor experiencia en videoconferencias

Objetivo

Realización de transcripciones precisas en tiempo real para millones de usuarios de videoconferencias, con la consecuente mejora de la eficiencia empresarial y la satisfacción del cliente.

Cliente

RingCentral

Caso de uso

Transcripciones en tiempo real

Tecnología

NVIDIA DGX A100, NVIDIA NeMo, NVIDIA Riva, servidor de inferencia NVIDIA Triton

Las transcripciones precisas mejoran la colaboración en forma de "trabajo desde cualquier lugar"

Cada día se celebran cientos de millones de reuniones en línea y esto hace que las videoconferencias se conviertan en una herramienta indispensable para las empresas hoy en día. Las aplicaciones de videoconferencia utilizan la transcripción en tiempo real para ofrecer características como subtítulos en directo y resúmenes de reuniones. RingCentral, un proveedor líder de soluciones de comunicaciones unificadas como servicio (UCaaS), transcribe más de mil millones de minutos de reuniones para 200 000 usuarios simultáneos en su plataforma. Estaban buscando una solución de transcripción para manejar múltiples acentos, jerga específica del dominio y entornos ruidosos con precisión y en tiempo real.

Solución NVIDIA

RingCentral ha ajustado los modelos preentrenados de reconocimiento de voz de última generación de NVIDIA sobre datos propios personalizados con NVIDIA NeMo, un marco de código abierto para construir modelos de IA conversacional. Los modelos se implementaron en producción utilizando NVIDIA Riva, un SDK acelerado por GPU para implementar aplicaciones de voz basadas en IA de primer nivel.

Resultados de RingCentral

Resultados

  • La precisión aumentó en más de un 10 por ciento

  • Mejor calidad de las tareas posteriores a la transcripción

Con la IA de voz de NVIDIA, el equipo de RingCentral logró una precisión impresionante para clientes con acentos de todo el mundo y diferentes vocabularios especializados de diferentes dominios, con una reducción de más del 10 por ciento de la tasa de error de palabras (WER, por sus siglas en inglés). Los clientes han informado de diferencias colosales en la calidad de las tareas posteriores a las transcripciones, como el resumen de las reuniones y el análisis de sentimiento de las videoconferencias y las sesiones de los centros de llamadas.

"Con NVIDIA® Riva de conversión de voz a texto, podemos transcribir audio de la reunión en tiempo real con alta precisión mientras ejecutamos simultáneamente miles de transmisiones, lo que se traduce en experiencias de reunión más atractivas para millones de usuarios de RingCentral".

Prashant Kukde
vicepresidente asociado, RingCentral