Servizi cloud

Accelerare l'inferenza degli LLM con NVIDIA nel cloud

Obiettivo

Perplexity punta a semplificare l'integrazione degli LLM open-source nei propri progetti con pplx-api, uno strumento API efficiente basato su GPU NVIDIA e ottimizzato per l'inferenza rapida con NVIDIA® TensorRT™-LLM.  

Cliente

Perplexity

Partner

AWS

Scenario di utilizzo

IA generativa / LLM

Prodotti

LLM NVIDIA TensorRT
GPU NVIDIA H100 Tensor Core
GPU NVIDIA A100 Tensor Core

L'API veloce ed efficiente di Perplexity

Fornire un'inferenza LLM rapida ed efficiente è fondamentale per le applicazioni in tempo reale. 

Perplexity offre la pplx-api, un'API progettata per accedere agli LLM più popolari con funzionalità di inferenza estremamente rapida e un'infrastruttura robusta. Pplx-api è pensata per gli sviluppatori che desiderano integrare gli LLM open-source nei propri progetti e per supportare il traffico a livello di produzione. Attualmente viene offerta su istanze P4d di Amazon Elastic Compute Cloud (Amazon EC2) P4d, basate su GPU NVIDIA A100 Tensor Core, ed è ulteriormente accelerata tramite il modello NVIDIA TensorRT-LLM. Presto, Perplexity effettuerà la transizione completa alle istanze Amazon P5 basate su GPU NVIDIA H100 Tensor Core.

Sfide legate alla distribuzione dell'inferenza

Per l'implementazione degli LLM per il prodotto di base, che implementa versioni personalizzate di vari modelli open-source specializzati per la ricerca, Perplexity ha dovuto affrontare diverse sfide. Una di queste è stata quella di gestire l'aumento dei costi associati all'inferenza LLM per supportare la rapida crescita di Perplexity. 

Da quando la piattaforma di inferenza LLM di Perplexity, pplx-api, è stata rilasciata per la beta pubblica a ottobre 2023, Perplexity ha dovuto ottimizzare la propria infrastruttura per raggiungere una scalabilità massiccia a costi minimi, mantenendo al contempo i rigorosi requisiti del contratto di servizio (SLA).

Inoltre, visto l'esplosiva crescita degli LLM della community, le organizzazioni di tutte le dimensioni devono adattarsi rapidamente a queste innovazioni e basarsi su un'infrastruttura ottimizzata per implementare modelli complessi in modo efficiente. Di conseguenza aumentano i costi e la complessità della distribuzione, quindi, l'approccio full-stack ottimizzato diventa essenziale per garantire prestazioni elevate per le applicazioni basate su LLM.

Image courtesy of Perplexity.

Perplexity e NVIDIA su AWS

Perplexity sfrutta la potenza dell'hardware e del software NVIDIA per risolvere questa sfida. Grazie a risultati più rapidi di quanto si possa leggere, la pplx-api può raggiungere una latenza fino a 3,1 volte inferiore e una latenza first-token fino a 4,3 volte inferiore rispetto agli standard relativi di altre piattaforme di sviluppo. Inoltre, Perplexity ha dimostrato di poter raggiungere costi di 4 volte inferiori semplicemente passando i riferimenti API per la funzione di inferenza esterna sulla pplx-api, con un risparmio di 600.000 dollari l'anno. 

Questo obiettivo, è stato raggiunto implementando la soluzione pplx-api sulle istanze Amazon P4d. A livello hardware, le GPU NVIDIA A100 alla base rappresentano un'opzione conveniente e affidabile per scalare le GPU e offrire prestazioni incredibili. Perplexity ha inoltre dimostrato che, sfruttando le GPU NVIDIA H100 e la precisione FP8 sulle istanze Amazon P5, è possibile dimezzare la latenza e aumentare il throughput del 200% rispetto alle GPU NVIDIA A100 dotate della stessa configurazione.

L'ottimizzazione del software in esecuzione sulla GPU aiuta a massimizzare ulteriormente le prestazioni. NVIDIA TensorRT-LLM, la libreria open-source che accelera e ottimizza l'inferenza LLM, facilita queste ottimizzazioni per implementazioni come FlashAttention o masked multi-head attention (MHA) per le fasi di contesto e la generazione dell'esecuzione del modello LLM. Inoltre, fornisce un livello flessibile di personalizzazione per parametri chiave come la possibilità di impostare le dimensioni dei batch, la quantizzazione e il parallelismo dei tensori. TensorRT-LLM è incluso come parte di NVIDIA AI Enterprise, che fornisce una piattaforma software end-to-end sicura e di livello produttivo per le aziende che creano e distribuiscono software per l'accelerazione IA. 

Infine, per gestire la scalabilità, Perplexity sfrutta la robusta integrazione di AWS con Kubernetes per scalare elasticamente centinaia di GPU e ridurre al minimo i tempi di inattività e l'overhead della rete. 

L'approccio di inferenza IA full-stack di NVIDIA svolge un ruolo cruciale nel soddisfare le rigorose esigenze delle applicazioni in tempo reale. Dalle GPU NVIDIA H100 e A100 alle ottimizzazioni di NVIDIA TensorRT-LLM, l'infrastruttura sottostante che alimenta la pplx-api di Perplexity consente ai team di sviluppo di ottenere vantaggi in termini di prestazioni e risparmi sui costi. 

Segui la discussione approfondita su AWS on Air per scoprire di più su Perplexity.

  • La tecnologia TensorRT-LLM accelera e ottimizza le prestazioni di inferenza.
  • NVIDIA TensorRT-LLM è una libreria open-source che accelera e ottimizza le prestazioni di inferenza degli LLM più recenti sulla piattaforma NVIDIA AI.
  • La piattaforma pplx-api di Perplexity ottimizza i carichi di lavoro di computing ad alte prestazioni (HPC) con le GPU NVIDIA A100 Tensor Core.
  • Grazie alle GPU NVIDIA A100, le istanze Amazon offrono prestazioni scalabili e prestazioni elevate per i training di machine learning e le applicazioni HPC nel cloud.
  • La pplx-api potenzia l'inferenza LLM con le GPU NVIDIA H100 Tensor Core. Le istanze
  • Amazon con GPU NVIDIA H100 offrono prestazioni senza precedenti per il training dei modelli di IA generativa di grandi dimensioni su larga scala.

Programma NVIDIA Inception

Perplexity è incluso in NVIDIA Inception, il programma gratuito che promuove le startup che stanno rivoluzionando i settori grazie ai progressi tecnologici.

Cos'è NVIDIA Inception

  • NVIDIA Inception è un programma gratuito pensato per accelerare lo sviluppo delle startup grazie a tecnologie all'avanguardia, offrire opportunità di entrare in contatto con investitori di capitali di rischio e consentire l'accesso alle ultime risorse tecniche di NVIDIA.

A differenza degli acceleratori tradizionali, NVIDIA Inception

  • supporta le startup in tutte le fasi del loro ciclo di vita. Lavoriamo a stretto contatto con i membri per fornire i migliori strumenti tecnici, le ultime risorse e le opportunità di connettersi con gli investitori.

Entra a far parte della rete globale di NVIDIA Inception, che conta oltre 15.000 startup che operano nel mondo della tecnologia.