Telecomunicazioni

IA vocale di classe mondiale per la migliore esperienza di videoconferenza

Obiettivo

Fornisce trascrizioni accurate in tempo reale a milioni di utenti di videoconferenze, migliorando l'efficienza aziendale e la soddisfazione del cliente.

Cliente

RingCentral

Scenario di utilizzo

Trascrizioni in tempo reale

Tecnologia

NVIDIA DGX A100, NVIDIA NeMo, NVIDIA Riva, NVIDIA Triton Inference Server

Trascrizioni accurate migliorano la collaborazione “Lavora ovunque”

Con centinaia di milioni di riunioni online al giorno, oggi la videoconferenza è diventata uno strumento essenziale per le aziende. Le applicazioni di videoconferenza utilizzano la trascrizione in tempo reale per offrire funzionalità come i sottotitoli in tempo reale e la sintesi delle riunioni. RingCentral, fornitore leader di soluzioni di comunicazione unificata come servizio (UCaaS), trascrive oltre un miliardo di minuti di riunioni per 200.000 utenti sulla propria piattaforma nello stesso momento. Erano alla ricerca di una soluzione di trascrizione per gestire accenti multipli, gergo specifico del settore e ambienti rumorosi in modo accurato e in tempo reale.

La soluzione NVIDIA

RingCentral ha messo a punto i modelli di riconoscimento vocale all'avanguardia e pre-addestrati di NVIDIA su dati personalizzati proprietari con NVIDIA NeMo, un framework open source per la creazione di modelli di IA conversazionale. I modelli sono stati implementati in produzione utilizzando NVIDIA Riva, un SDK accelerato da GPU per la distribuzione di applicazioni vocali basate su IA di livello mondiale.

Risultati di RingCentral

Risultati

  • Accuratezza aumentata di oltre il 10%

  • Migliore qualità delle attività successive alla trascrizione

Con l'IA vocale di NVIDIA, il team di RingCentral ha ottenuto un'accuratezza impressionante per i clienti con accenti globali e terminologia specifica per diversi settori, riducendo il tasso di errore delle parole (WER) di oltre il 10%. I clienti hanno segnalato differenze abissali nella qualità delle attività svolte dopo le trascrizioni, come la sintesi delle riunioni e l'analisi del sentimento delle sessioni di videoconferenza e call center.

“Utilizzando il sistema di conversione audio in testo di NVIDIA® Riva, siamo in grado di trascrivere l’audio delle riunioni in tempo reale con elevata precisione, eseguendo contemporaneamente migliaia di flussi, il che si traduce in esperienze di riunione più coinvolgenti per milioni di utenti di RingCentral.”

Prashant Kukde
Vicepresidente associato di RingCentral