Servicios en la nube

Aceleración de la inferencia de grandes modelos lingüísticos con NVIDIA en la nube

Objetivo

Perplexity tiene como objetivo facilitar a los desarrolladores la integración de modelos lingüísticos de gran tamaño (LLM) de código abierto y de vanguardia en sus proyectos con pplx-api, una herramienta de API eficiente impulsada por GPU NVIDIA y optimizada para inferencia rápida con NVIDIA® TensorRT™-LLM.

Cliente

Perplexity

Partner

AWS

Caso de uso

IA generativa/LLM

Productos

NVIDIA TensorRT-LLM
GPU NVIDIA H100 con núcleo Tensor
GPU NVIDIA A100 con núcleo Tensor

La API rápida y eficiente de Perplexity

Ofrecer inferencia de LLM rápida y eficiente es clave para las aplicaciones en tiempo real.

Perplexity ofrece pplx-api, una API diseñada para acceder a LLM populares con capacidades de inferencia increíblemente rápidas y una infraestructura robusta. Pplx-api está creada para desarrolladores que buscan integrar LLM de código abierto en sus proyectos y está diseñada para admitir tráfico a nivel de producción. Actualmente disponible en instancias P4d de Amazon Elastic Compute Cloud (Amazon EC2) impulsadas por GPU NVIDIA A100 Tensor Core y se acelera aún más con NVIDIA TensorRT-LLM. Pronto, Perplexity hará una transición completa a instancias de Amazon P5 impulsadas por GPU NVIDIA H100 Tensor Core.

Desafíos en la implementación de la inferencia

Perplexity se enfrenta a varios desafíos al implementar los LLM para su producto principal, que implementa versiones personalizadas de varios modelos de código abierto especializados para búsqueda. Un desafío importante para una empresa emergente ha sabido gestionar los crecientes costes asociados a la inferencia de LLM para ayudar al rápido crecimiento de Perplexity.

Desde que la plataforma de inferencia de LLM de Perplexity, pplx-api, se lanzó en versión beta al público en octubre de 2023, Perplexity ha tenido el desafío de optimizar su infraestructura para lograr una ampliación masiva con un coste mínimo manteniendo los estrictos requisitos de acuerdo de nivel de servicio (SLA).

Además, los LLM comunitarios crecen a un ritmo trepidante. Organizaciones de todos los tamaños deben adaptarse rápidamente a estas innovaciones y aprovechar la infraestructura optimizada para implementar modelos complejos de manera eficiente. Esto aumenta los costes y la complejidad de la implementación, por lo que un enfoque optimizado de pila completa resulta esencial para un sólido rendimiento de las aplicaciones con tecnología de LLM.

Image courtesy of Perplexity.

Perplexity y NVIDIA en AWS

Perplexity aprovecha la potencia del hardware y el software de NVIDIA para resolver este desafío. Al ofrecer resultados más rápido de lo que se tarda en leerlos, pplx-api puede lograr hasta 3,1 veces menos latencia y hasta 4,3 veces menos latencia de primer token en comparación con otras plataformas de implementación. Perplexity pudo reducir los costes a la cuarta parte simplemente cambiando sus referencias de API, pasando de la inferencia externa a pplx-api, lo que supone un ahorro de 600 000 dólares al año.

Perplexity lo logra implementando su solución pplx-api en las instancias de Amazon P4d. En el ámbito del hardware, las GPU NVIDIA A100 subyacentes son una opción rentable y fiable para escalar GPU con un rendimiento increíble. Perplexity también ha demostrado que, al aprovechar las GPU NVIDIA H100 y la precisión de FP8 en las instancias de Amazon P5, pueden reducir su latencia a la mitad y aumentar el rendimiento en un 200 por ciento en comparación con las GPU NVIDIA A100 que utilizan la misma configuración.

La optimización del software que se ejecuta en la GPU ayuda a maximizar aún más el rendimiento. NVIDIA TensorRT-LLM, una biblioteca de código abierto que acelera y optimiza la inferencia de LLM, facilita estas optimizaciones para implementaciones como FlashAttention y la atención multicabecabecado (MHA) para el contexto y las fases de generación de ejecución de modelos de LLM. También proporciona una capa flexible de personalización para parámetros clave, como el tamaño de los lotes, la cuantificación y el paralelismo de tensores. TensorRT-LLM se incluye como parte de NVIDIA AI Enterprise, que proporciona una plataforma de software de grado de producción, robusta y de extremo a extremo para empresas que crean e implementan software de IA acelerado.

Finalmente, para abordar la escalabilidad, Perplexity utiliza la robusta integración de AWS con Kubernetes para escalar elásticamente más allá de cientos de GPU y, en última instancia, minimizar el tiempo de inactividad y la sobrecarga de red.

El enfoque de inferencia de IA de pila completa de NVIDIA juega un papel crucial a la hora de satisfacer las exigentes demandas de aplicaciones en tiempo real. Desde las GPU H100 y A100 a las optimizaciones de NVIDIA TensorRT-LLM, la infraestructura subyacente que mueva la API pplx de Perplexity libera tanto ganancias de rendimiento como ahorro de costes para desarrolladores.

Puede obtener más información sobre Perplexity en AWS on Air, donde hablan en profundidad de su producto.

  • TensorRT-LLM acelera y optimiza el rendimiento de inferencia.
  • NVIDIA TensorRT-LLM es una biblioteca de código abierto que acelera y optimiza el rendimiento de inferencia de los últimos LLM en la plataforma NVIDIA AI.
  • La plataforma pplx-api de Perplexity optimiza las cargas de trabajo de computación de alto rendimiento (HPC) con GPU NVIDIA A100 con núcleo Tensor.
  • Las instancias de Amazon con GPU NVIDIA A100 ofrecen un alto rendimiento escalable para entrenamiento de aprendizaje automático y aplicaciones de HPC en la nube.
  • pplx-api potencia la inferencia de LLM con GPU NVIDIA H100 con núcleo Tensor.
  • Las instancias de Amazon con GPU NVIDIA H100 ofrecen un rendimiento sin precedentes para entrenar modelos de IA generativa de gran tamaño a escala.

Programa Inception de NVIDIA

Perplexity es miembro de NVIDIA Inception, un programa gratuito que fomenta el desarrollo de las empresas emergentes que revolucionan sus sectores a través de avances tecnológicos.

¿Qué es NVIDIA Inception?

  • NVIDIA Inception es un programa gratuito diseñado para ayudar a las empresas emergentes a evolucionar más rápido a través de tecnologías de vanguardia, oportunidades para conectar con capitalistas de riesgo y el acceso a los últimos recursos técnicos de NVIDIA.

Beneficios del programa NVIDIA Inception

  • A diferencia de los aceleradores tradicionales, NVIDIA Inception es compatible con todas las etapas del ciclo de vida de una empresa emergente. Trabajamos en estrecha colaboración con los miembros para proporcionar las mejores herramientas técnicas y los recursos más novedosos, además de oportunidades para conectar con inversores.

Únase a la red global de NVIDIA Inception con más de 15 000 empresas emergentes del sector tecnológico.