Perplexity sfrutta la potenza dell'hardware e del software NVIDIA per risolvere questa sfida. Grazie a risultati più rapidi di quanto si possa leggere, la pplx-api può raggiungere una latenza fino a 3,1 volte inferiore e una latenza first-token fino a 4,3 volte inferiore rispetto agli standard relativi di altre piattaforme di sviluppo. Inoltre, Perplexity ha dimostrato di poter raggiungere costi di 4 volte inferiori semplicemente passando i riferimenti API per la funzione di inferenza esterna sulla pplx-api, con un risparmio di 600.000 dollari l'anno.
Questo obiettivo, è stato raggiunto implementando la soluzione pplx-api sulle istanze Amazon P4d. A livello hardware, le GPU NVIDIA A100 alla base rappresentano un'opzione conveniente e affidabile per scalare le GPU e offrire prestazioni incredibili. Perplexity ha inoltre dimostrato che, sfruttando le GPU NVIDIA H100 e la precisione FP8 sulle istanze Amazon P5, è possibile dimezzare la latenza e aumentare il throughput del 200% rispetto alle GPU NVIDIA A100 dotate della stessa configurazione.
L'ottimizzazione del software in esecuzione sulla GPU aiuta a massimizzare ulteriormente le prestazioni. NVIDIA TensorRT-LLM, la libreria open-source che accelera e ottimizza l'inferenza LLM, facilita queste ottimizzazioni per implementazioni come FlashAttention o masked multi-head attention (MHA) per le fasi di contesto e la generazione dell'esecuzione del modello LLM. Inoltre, fornisce un livello flessibile di personalizzazione per parametri chiave come la possibilità di impostare le dimensioni dei batch, la quantizzazione e il parallelismo dei tensori. TensorRT-LLM è incluso come parte di NVIDIA AI Enterprise, che fornisce una piattaforma software end-to-end sicura e di livello produttivo per le aziende che creano e distribuiscono software per l'accelerazione IA.
Infine, per gestire la scalabilità, Perplexity sfrutta la robusta integrazione di AWS con Kubernetes per scalare elasticamente centinaia di GPU e ridurre al minimo i tempi di inattività e l'overhead della rete.
L'approccio di inferenza IA full-stack di NVIDIA svolge un ruolo cruciale nel soddisfare le rigorose esigenze delle applicazioni in tempo reale. Dalle GPU NVIDIA H100 e A100 alle ottimizzazioni di NVIDIA TensorRT-LLM, l'infrastruttura sottostante che alimenta la pplx-api di Perplexity consente ai team di sviluppo di ottenere vantaggi in termini di prestazioni e risparmi sui costi.
Segui la discussione approfondita su AWS on Air per scoprire di più su Perplexity.