Cloud-Dienste

Beschleunigung der Inferenz mit großen Sprachmodellen durch NVIDIA in der Cloud

Ziel

Perplexity möchte Entwicklern die Integration hoch entwickelter Open-Source-LLMs (großer Sprachmodelle) in ihre Projekte mit pplx-api erleichtern, einem effizienten API-Tool, das von NVIDIA-GPUs unterstützt und für schnelle Inferenz mit NVIDIA® TensorRT™-LLM optimiert ist.

Kunde

Perplexity

Partner

AWS

Anwendungsfall

Generative KI/LLMs

Produkte

NVIDIA TensorRT-LLM
NVIDIA H100 Tensor Core GPUs
NVIDIA A100 Tensor Core GPUs

Schnelle und effiziente API von Perplexity

Für Echtzeit-Anwendungen ist die Bereitstellung schneller und effizienter LLM-Inferenz von entscheidender Bedeutung.

Perplexity bietet mit pplx-api eine API, die für den Zugriff auf bekannte LLMs mit blitzschnell möglicher Inferenz und einer stabilen Infrastruktur entwickelt wurde. Pplx-api ist für Entwickler konzipiert, die Open-Source-LLMs in ihre Projekte integrieren möchten und dafür ausgelegt, den Datenverkehr im Produktivbetrieb zu bewältigen. Gegenwärtig wird die API in P4d-Instanzen von Amazon Elastic Compute Cloud (Amazon EC2) bereitgestellt, die von NVIDIA A100 Tensor Core GPUs unterstützt und mit NVIDIA TensorRT-LLM weiter beschleunigt werden. Demnächst wird Perplexity einen vollständigen Wechsel zu Amazon-P5-Instanzen mit NVIDIA H100 Tensor Core GPUs vollziehen.

Herausforderungen bei der Inferenzbereitstellung

Perplexity steht bei der Bereitstellung von LLMs für sein Hauptprodukt, das speziell für die Suche angepasste Versionen verschiedener Open-Source-Modelle bereitstellt, vor mehreren Herausforderungen. Als Start-up war es ein großes Problem, die steigenden Kosten im Zusammenhang mit LLM-Inferenz zu managen, um das schnelle Wachstum von Perplexity zu unterstützen. 

Nachdem die LLM-Inferenz-Plattform pplx-api im Oktober 2023 als öffentliche Betaversion von Perplexity freigegeben wurde, musste Perplexity seine Infrastruktur optimieren, um mit möglichst geringen Kosten eine massive Skalierung zu erzielen und strenge SLA-Bedingungen (Service Level Agreement) weiterhin zu erfüllen.

Dazu kommt, dass Community-LLMs explosionsartig anwachsen. Unternehmen jeglicher Größe müssen sich schnell diesen Innovationen anpassen und auf eine optimierte Infrastruktur aufbauen, um komplexe Modelle effizient bereitzustellen. Dies treibt die Kosten nach oben und steigert die Komplexität der Bereitstellung, weshalb ein optimiertes Full-Stack-Konzept für überzeugende Leistungseigenschaften von LLM-gestützten Anwendungen unerlässlich ist.

Image courtesy of Perplexity.

Perplexity und NVIDIA auf AWS

Perplexity nutzt die Leistungsfähigkeit von NVIDIAs Hardware und Software, um diese Herausforderung zu lösen. Durch die Bereitstellung von Ergebnissen schneller als man lesen kann, kann pplx-api im Vergleich zu anderen Bereitstellungsplattformen eine bis zu 3,1-fache geringere Latenz und bis zu 4,3-fache geringere

Latenz beim ersten Token erreichen. Perplexity konnte die Kosten um das Vierfache senken, indem sie einfach ihre externen Inferenz-Serving-API-Referenzen auf pplx-api umschaltete, was zu Einsparungen von 600.000 USD pro Jahr führte.

Perplexity erreicht

dies, indem sie ihre pplx-api-Lösung auf Amazon P4d-Instanzen bereitstellt. Auf Hardware-Ebene sind die zugrunde liegenden NVIDIA A100-GPUs eine kostengünstige und zuverlässige Option für die Skalierung von

GPUs mit unglaublicher Leistung. Perplexity hat auch gezeigt, dass durch die Nutzung von NVIDIA H100-GPUs und FP8-Präzision auf Amazon

P5-Instanzen

  • TensorRT-LLM steigert und optimiert die Inferenzleistung.
  • NVIDIA TensorRT-LLM ist eine Open-Source-Bibliothek, die der Beschleunigung und Optimierung der Inferenz mit aktuellsten LLMs auf der NVIDIA-AI-Plattform dient.
  • Die pplx-api-Plattform von Perplexity optimiert HPC-Workloads (High-Performance-Computing) mit NVIDIA A100 Tensor Core GPUs.
  • Amazon-Instanzen mit NVIDIA A100 GPUs bieten skalierbare hohe Leistung für Training mit maschinellem Lernen und HPC-Anwendungen in der Cloud.
  • pplx-api optimiert die LLM-Inferenz mit NVIDIA H100 Tensor Core GPUs.
  • Amazon-Instanzen mit NVIDIA H100 GPUs bieten beispiellose Leistung für das Training großer generativer KI-Modelle in großem Maßstab.

NVIDIA Inception-Programm

Perplexity ist Mitglied von NVIDIA Inception, einem kostenlosen Programm zur Förderung von Start-ups, die Branchen mit technologischen Fortschritten revolutionieren.

Was ist NVIDIA Inception?

  • NVIDIA Inception ist ein kostenloses Programm, das Start-ups dabei unterstützt, sich schneller zu entwickeln, indem es ihnen die Möglichkeit bietet, mit Risikokapitalgebern in Kontakt zu treten und Zugriff auf die neuesten technischen Ressourcen von NVIDIA zu erhalten.

Vorteile des NVIDIA Inception-Programms:

  • Im Gegensatz zu herkömmlichen Beschleunigern unterstützt NVIDIA Inception Startups in jeder Phase über ihren gesamten Geschäftszeitraum hinweg. Wir arbeiten eng mit den Mitgliedern zusammen, um die besten technischen Tools sowie die neuesten Ressourcen und Möglichkeiten zum Austausch mit Investoren bereitzustellen.

Schließen Sie sich dem weltweiten Netzwerk von NVIDIA Inception mit über 15.000 Tech-Start-ups an.