Perplexity exploite la puissance du matériel et des logiciels de NVIDIA pour répondre à ce défi en fournissant des résultats extrêmement rapides, ce qui permet de réduire la latence jusqu'à 3,1 fois et la latence du premier jeton jusqu'à 4,3 fois par rapport aux autres plateformes de déploiement. Perplexity a été en mesure de diviser les coûts par quatre en modifiant ses références d'API externes pour l'appel de pplx-api, ce qui lui a permis de bénéficier de gains de productivité de 600 000 dollars par an.
Perplexity a obtenu ces résultats en déployant sa solution pplx-api sur des instances Amazon P4d. Au niveau matériel, les GPU NVIDIA A100 sous-jacents constituent une option rentable et fiable pour faire évoluer les GPU avec des performances remarquables. Perplexity a par ailleurs démontré qu'en exploitant des GPU NVIDIA H100 et en faisant appel à des calculs de précision FP8 sur des instances Amazon P5, cette solution permet de réduire la latence de moitié et d'augmenter le rendement de 200 % par rapport aux GPU NVIDIA A100 avec une configuration analogue.
L'optimisation de l'environnement logiciel pour une exécution sur GPU permet de maximiser les performances. NVIDIA TensorRT-LLM, une bibliothèque open-source qui accélère et optimise l'inférence des LLM, facilite ces optimisations pour des implémentations telles que FlashAttention et le "masked multi-head attention" (MHA) pour les phases de conception et de génération d'un modèle de LLM. Elle fournit également une couche de personnalisation flexible pour des paramètres-clés tels que la taille des lots, la quantification et le parallélisme. TensorRT-LLM fait partie intégrante de NVIDIA AI Enterprise, qui offre une plateforme logicielle de bout en bout pour la production et le déploiement de logiciels d'IA.
Enfin, pour faire face à l'évolutivité de l'IA, Perplexity utilise l'intégration renforcée d'AWS avec Kubernetes pour une mise à l'échelle flexible de plus de 100 GPU et, au final, pour minimiser les temps d'arrêt et les surcharges.
L'approche exhaustive des inférences d'IA par NVIDIA joue un rôle crucial pour répondre aux exigences strictes des applications en temps réel. Des GPU NVIDIA H100 et A100 en passant par l'optimisation de NVIDIA TensorRT-LLM, l'infrastructure sous-jacente qui alimente pplx-api de Perplexity permet aux développeurs de réaliser des gains de performances significatifs avec une importante réduction des coûts.
Obtenez plus d'informations sur Perplexity en regardant AWS on Air, où ces produits sont présentés plus en détails.