Perplexity aprovecha la potencia del hardware y el software de NVIDIA para resolver este desafío. Al ofrecer resultados más rápido de lo que se tarda en leerlos, pplx-api puede lograr hasta 3,1 veces menos latencia y hasta 4,3 veces menos latencia de primer token en comparación con otras plataformas de implementación. Perplexity pudo reducir los costes a la cuarta parte simplemente cambiando sus referencias de API, pasando de la inferencia externa a pplx-api, lo que supone un ahorro de 600 000 dólares al año.
Perplexity lo logra implementando su solución pplx-api en las instancias de Amazon P4d. En el ámbito del hardware, las GPU NVIDIA A100 subyacentes son una opción rentable y fiable para escalar GPU con un rendimiento increíble. Perplexity también ha demostrado que, al aprovechar las GPU NVIDIA H100 y la precisión de FP8 en las instancias de Amazon P5, pueden reducir su latencia a la mitad y aumentar el rendimiento en un 200 por ciento en comparación con las GPU NVIDIA A100 que utilizan la misma configuración.
La optimización del software que se ejecuta en la GPU ayuda a maximizar aún más el rendimiento. NVIDIA TensorRT-LLM, una biblioteca de código abierto que acelera y optimiza la inferencia de LLM, facilita estas optimizaciones para implementaciones como FlashAttention y la atención multicabecabecado (MHA) para el contexto y las fases de generación de ejecución de modelos de LLM. También proporciona una capa flexible de personalización para parámetros clave, como el tamaño de los lotes, la cuantificación y el paralelismo de tensores. TensorRT-LLM se incluye como parte de NVIDIA AI Enterprise, que proporciona una plataforma de software de grado de producción, robusta y de extremo a extremo para empresas que crean e implementan software de IA acelerado.
Finalmente, para abordar la escalabilidad, Perplexity utiliza la robusta integración de AWS con Kubernetes para escalar elásticamente más allá de cientos de GPU y, en última instancia, minimizar el tiempo de inactividad y la sobrecarga de red.
El enfoque de inferencia de IA de pila completa de NVIDIA juega un papel crucial a la hora de satisfacer las exigentes demandas de aplicaciones en tiempo real. Desde las GPU H100 y A100 a las optimizaciones de NVIDIA TensorRT-LLM, la infraestructura subyacente que mueva la API pplx de Perplexity libera tanto ganancias de rendimiento como ahorro de costes para desarrolladores.
Puede obtener más información sobre Perplexity en AWS on Air, donde hablan en profundidad de su producto.