Services Cloud

Accélérer l'inférence des grands modèles de langage avec NVIDIA dans le Cloud

Objectif

Perplexity vise à faciliter l'intégration de grands modèles de langage (LLM) open-source de pointe aux projets des développeurs grâce à pplx-api, un outil d'API efficace alimenté par des GPU NVIDIA et optimisé pour une inférence rapide avec NVIDIA® TensorRT™-LLM.

Client

Perplexity

Partenaire

AWS

Utilisation

IA générative/LLM

Produits

NVIDIA TensorRT-LLM
GPU NVIDIA H100 Tensor Core
GPU NVIDIA A100 Tensor Core

API rapide et efficace de Perplexity

Fournir une inférence rapide et efficace des LLM est essentielle pour les applications en temps réel.

Perplexity propose pplx-api, une API conçue pour accéder à des LLM populaires avec des capacités d'inférence rapides et une infrastructure robuste. Pplx-api est destinée aux développeurs qui souhaitent intégrer des LLM open-source à leurs projets et a été conçue pour résister au trafic de production. Elle est actuellement disponible sur des instances P4d Amazon Elastic Compute Cloud (Amazon EC2), alimentées par des GPU NVIDIA A100 Tensor Core et accélérées par NVIDIA TensorRT-LLM. Perplexity va bientôt faire l'objet d'une transition complète vers des instances Amazon P5 équipées de GPU NVIDIA H100 Tensor Core.

Difficultés du déploiement de l'inférence

Perplexity doit relever plusieurs défis lors du déploiement des LLM pour son produit de base, qui fait appel à des versions personnalisées de divers modèles open-source spécialisés pour la recherche. Gérer l'escalade des coûts associés à l'inférence des LLM pour soutenir la croissance rapide de Perplexity est un défi important pour cette startup.

Depuis la mise en œuvre de la plateforme d'inférence des LLM pplx-api en version bêta publique en octobre 2023, Perplexity a été mis au défi d'optimiser son infrastructure afin de réussir une mise à l'échelle massive à un coût contenu tout en maintenant des exigences strictes en matière de niveau de service (SLA).

De plus, les LLM communautaires se développent à un rythme effréné. Les entreprises de toutes les tailles doivent s'adapter rapidement à ces innovations et s'appuyer sur une infrastructure optimisée pour déployer efficacement des modèles complexes. Cela accroît le coût et la complexité du déploiement, de sorte qu'une approche Full-Stack entièrement optimisée devient essentielle pour les performances des applications basées sur des LLM.

Image courtesy of Perplexity.

Perplexity et NVIDIA sur AWS

Perplexity exploite la puissance du matériel et des logiciels de NVIDIA pour répondre à ce défi en fournissant des résultats extrêmement rapides, ce qui permet de réduire la latence jusqu'à 3,1 fois et la latence du premier jeton jusqu'à 4,3 fois par rapport aux autres plateformes de déploiement. Perplexity a été en mesure de diviser les coûts par quatre en modifiant ses références d'API externes pour l'appel de pplx-api, ce qui lui a permis de bénéficier de gains de productivité de 600 000 dollars par an.

Perplexity a obtenu ces résultats en déployant sa solution pplx-api sur des instances Amazon P4d. Au niveau matériel, les GPU NVIDIA A100 sous-jacents constituent une option rentable et fiable pour faire évoluer les GPU avec des performances remarquables. Perplexity a par ailleurs démontré qu'en exploitant des GPU NVIDIA H100 et en faisant appel à des calculs de précision FP8 sur des instances Amazon P5, cette solution permet de réduire la latence de moitié et d'augmenter le rendement de 200 % par rapport aux GPU NVIDIA A100 avec une configuration analogue.

L'optimisation de l'environnement logiciel pour une exécution sur GPU permet de maximiser les performances. NVIDIA TensorRT-LLM, une bibliothèque open-source qui accélère et optimise l'inférence des LLM, facilite ces optimisations pour des implémentations telles que FlashAttention et le "masked multi-head attention" (MHA) pour les phases de conception et de génération d'un modèle de LLM. Elle fournit également une couche de personnalisation flexible pour des paramètres-clés tels que la taille des lots, la quantification et le parallélisme. TensorRT-LLM fait partie intégrante de NVIDIA AI Enterprise, qui offre une plateforme logicielle de bout en bout pour la production et le déploiement de logiciels d'IA. 

Enfin, pour faire face à l'évolutivité de l'IA, Perplexity utilise l'intégration renforcée d'AWS avec Kubernetes pour une mise à l'échelle flexible de plus de 100 GPU et, au final, pour minimiser les temps d'arrêt et les surcharges.

L'approche exhaustive des inférences d'IA par NVIDIA joue un rôle crucial pour répondre aux exigences strictes des applications en temps réel. Des GPU NVIDIA H100 et A100 en passant par l'optimisation de NVIDIA TensorRT-LLM, l'infrastructure sous-jacente qui alimente pplx-api de Perplexity permet aux développeurs de réaliser des gains de performances significatifs avec une importante réduction des coûts.

Obtenez plus d'informations sur Perplexity en regardant AWS on Air, où ces produits sont présentés plus en détails.

  • TensorRT-LLM accélère et optimise les performances d'inférence.
  • NVIDIA TensorRT-LLM est une bibliothèque open-source qui accélère et optimise les performances d'inférence des LLM les plus récents sur la plateforme de NVIDIA pour l'IA.
  • La plateforme pplx-api de Perplexity optimise les charges de travail de calcul haute performance (HPC) avec les GPU NVIDIA A100 Tensor Core.
  • Les instances Amazon dotées de GPU NVIDIA A100 offrent des performances élevées et évolutives pour l'entraînement des modèles d'apprentissage automatique et les applications HPC dans le Cloud.
  • pplx-api améliore l'inférence des LLM avec des GPU NVIDIA H100 Tensor Core.
  • Les instances Amazon dotées de GPU NVIDIA H100 fournissent des performances sans précédent pour l'entraînement de grands modèles d'IA générative à grande échelle.

Programme NVIDIA Inception

Perplexity est membre de NVIDIA Inception, un programme gratuit qui contribue au développement des startups qui révolutionnent leurs industries grâce à l'innovation technologique.

Qu'est-ce que NVIDIA Inception ?

  • NVIDIA Inception est un programme gratuit qui a été conçu pour aider les startups à évoluer plus rapidement grâce à une technologie de pointe, à une mise en relation avec des investisseurs et à un accès aux ressources techniques de NVIDIA les plus récentes.

Avantages du programme NVIDIA Inception

  • Contrairement aux programmes d'accélération traditionnels, NVIDIA Inception prend en charge les startups tout au long de leur cycle de vie. Nous travaillons en étroite collaboration avec les membres de notre programme pour leur donner accès aux meilleurs outils techniques, aux dernières ressources et à des opportunités de connexion avec des investisseurs.

Rejoignez le réseau mondial du programme NVIDIA Inception, qui rassemble plus de 15 000 startups.