Trasformare le operazioni di call center intelligenti nella finanza dei consumatori
Le capacità dell'IA hanno attirato una moltitudine di istituti bancari e finanziari in Vietnam, in particolare Home Credit Vietnam. Come una delle principali società finanziarie digitali del Vietnam, Home Credit ha sempre dato priorità all'esperienza del cliente. Riconoscendo l'importanza dell'automazione dei processi e dell'efficienza operativa, Home Credit ha collaborato con FPT Smart Cloud
per distribuire la soluzione
FPT AI Engage nel 2019, quando l'IA era ancora un concetto relativamente nuovo in Vietnam, dimostrando la visione strategica dell'azienda.
Dopo il primo anno di attività nel 2020, FPT.AI Virtual Agent for Call Center ha supportato Home Credit Vietnam per effettuare più di 5.000.000 chiamate al mese. Grazie a NVIDIA, si è arrivati a 12.000.000 chiamate durante le ore di punta, risparmiando il 50% dei costi operativi e raggiungendo un tasso di successo delle chiamate del 98%. Inoltre, "l'agente virtuale" di Home Credit Vietnam ha avuto un punteggio medio di soddisfazione del cliente di 4,5/5.
La distribuzione è stata ottimizzata utilizzando NVIDIA® TensorRT™ e servita in NVIDIA Triton™ Inference Server con batch dinamico, risparmiando fino al 20% delle risorse di calcolo ad alte prestazioni per la stessa qualità di output del modello.
Finora, Home Credit Vietnam ha applicato oltre 100 casi di utilizzo, tra cui richieste di informazioni, servizio autonomo per bloccare o attivare le carte, sondaggi automatici sui clienti e recupero crediti. Di conseguenza, questi compiti ordinari vengono lasciati all'IA e gli agenti umani hanno più tempo per gestire problemi critici dei clienti.
Una nuova applicazione di assistenti virtuali che può aiutare a convertire un centro di costi, come un dipartimento di servizio clienti, in un "centro di profitto", è un processo chiamato servizio alle vendite. FPT AI Engage ha aumentato di due volte il volume dei servizi alle vendite di Home Credit Vietnam.
Queste innovazioni hanno mostrato la necessità di un coinvolgimento del cliente di tipo più umano negli assistenti virtuali per potenziare l'esperienza digitale. Questa osservazione ha spostato l'attenzione sulla qualità delle voci generate dall'IA.
Le voci sintetiche vengono sviluppate di pari passo agli assistenti virtuali, con una varietà di toni, accenti e sentimenti disponibili. Il tipo di voce utilizzata dipende dall'applicazione. Ad esempio, gli assistenti virtuali per domande generali usano toni più amichevoli e informativi. Le voci di IA per le vendite telefoniche comportano maggiore flessibilità ed emozioni per persuadere meglio i potenziali clienti.
Sviluppo di modelli di sintesi vocale per migliorare la qualità della conversazione
Riconoscendo la crescente domanda di assistenti virtuali più umani e sentimentali, FPT Smart Cloud mira a sviluppare modelli di sintesi vocale in grado di produrre nuove voci basate su alcuni minuti di campioni audio. Le voci generate devono essere di alta qualità, indistinguibili dalla voce umana e comunicare in più lingue, anche se gli input di formazione sono in vietnamita.
Considerando le sfumature e i toni emotivi del linguaggio umano, il modello di sintesi vocale richiede spesso una grande quantità di dati per l'addestramento e una lunga tempistica di elaborazione per ottimizzare l'accuratezza e l'espressività.
L'addestramento del modello è stato precedentemente eseguito sulla GPU NVIDIA A100 Tensor Core. L'addestramento tipico richiede tre server con una capacità di elaborazione di 100 ore di dati vocali al giorno per una durata di 20 giorni. Un aggiornamento alla GPU NVIDIA H100 Tensor Core dovrebbe gestire requisiti di modello più complicati e ridurre il tempo di elaborazione di almeno 3 volte, o 7 giorni, con 2.000 ore di dati audio.
Con H100, il processo totale richiede solo un server dedicato. Il modello di sintesi vocale è pronto in cinque giorni con un miglioramento dell'efficienza di 4 volte rispetto all'NVIDIA A100, poiché elaborava circa 400 ore di campioni vocali ogni giorno. Le dimensioni e capacità del modello di output sono aumentate di 100 volte, generando una voce che sembra di un essere umano e che può alternare facilmente fra 18 lingue, tra cui vietnamita, inglese e indonesiano.
Mettendo a paragone A100, H100 è un passo avanti nella modellazione vocale dell'IA, che trascende le barriere linguistiche e facilita la comunicazione globale su una scala senza precedenti. Facendo progessi nel potenzionamneto dell'IA, FPT Smart Cloud sta anche utilizzando NVIDIA H100 per modelli linguistici di grandi dimensioni per generare risposte più accurate e flessibili per gli assistenti virtuali.