Perplexity nutzt die Leistungsfähigkeit von NVIDIAs Hardware und Software, um diese Herausforderung zu lösen. Durch die Bereitstellung von Ergebnissen schneller als man lesen kann, kann pplx-api im Vergleich zu anderen Bereitstellungsplattformen eine bis zu 3,1-fache geringere Latenz und bis zu 4,3-fache geringere
Latenz beim ersten Token erreichen. Perplexity konnte die Kosten um das Vierfache senken, indem sie einfach ihre externen Inferenz-Serving-API-Referenzen auf pplx-api umschaltete, was zu Einsparungen von 600.000 USD pro Jahr führte.
Perplexity erreicht
dies, indem sie ihre pplx-api-Lösung auf Amazon P4d-Instanzen bereitstellt. Auf Hardware-Ebene sind die zugrunde liegenden NVIDIA A100-GPUs eine kostengünstige und zuverlässige Option für die Skalierung von
GPUs mit unglaublicher Leistung. Perplexity hat auch gezeigt, dass durch die Nutzung von NVIDIA H100-GPUs und FP8-Präzision auf Amazon
P5-Instanzen