Baseten nutzt NVIDIA GPUs und NVIDIA® TensorRTTM-LLM, um eine Infrastruktur für maschinelles Lernen zu bieten, die leistungsstark, skalierbar und kostengünstig ist.
Baseten
Baseten
Generative KI / LLMs
NVIDIA TensorRT-LLM
NVIDIA A100 Tensor Core GPU
NVIDIA A10 Tensor Core GPU
Baseten ist einfach: Bereitstellung einer Infrastruktur für maschinelles Lernen (ML), die einfach funktioniert.
Mit Baseten haben Unternehmen das, was sie brauchen, um ML-Modelle für Echtzeitanwendungen leistungsfähig, skalierbar und kostengünstig bereitzustellen und zu bedienen. Kunden können mit ihren eigenen Modellen zu Baseten kommen oder aus einer Vielzahl von vorgefertigten Modellen wählen und sie in der Produktion bereitstellen. Diese Modelle werden auf Basetens Open-Source-Truss-Framework bereitgestellt und über ein benutzerfreundliches Dashboard verwaltet.
Mit NVIDIA GPU-beschleunigten Instanzen auf AWS, wie Amazon EC2 P4d-Instanzen, die von NVIDIA A100 Tensor Core-GPUs angetrieben werden, und mittels optimierter NVIDIA-Software, wie beispielsweise NVIDIA TensorRT-LLM, kann Baseten seine Mission von der Cloud aus erfüllen.
Image courtesy of Baseten
Image courtesy of Baseten
Baseten bewältigt mehrere Herausforderungen, mit denen sich seine Kunden bei der Modellbereitstellung konfrontiert sehen, insbesondere in Bezug auf Skalierbarkeit, Kosteneffizienz und Fachwissen.
Skalierbarkeit: Die Handhabung von KI-Infrastruktur, die unterschiedliche Nachfragen abdeckt, also von sporadischen individuellen Anfragen bis hin zu Tausenden von Anfragen mit hohem Traffic reicht, ist eine große Herausforderung. Die zugrunde liegende Infrastruktur muss sowohl dynamisch als auch reaktionsfähig sein und sich an Echtzeitanforderungen anpassen, ohne Verzögerungen zu verursachen oder manuelle Überwachung zu benötigen.
Kosteneffizienz: Die Nutzungsmaximierung der zugrunde liegenden NVIDIA-GPUs ist von entscheidender Bedeutung. Die KI-Inferenzinfrastruktur muss eine hohe Leistung bieten, ohne in Szenarien mit niedrigem bzw. hohem Traffic unnötige Kosten zu verursachen.
Expertise: Die Bereitstellung von ML-Modellen erfordert spezielle Fähigkeiten und ein tiefes Verständnis der zugrunde liegenden Infrastruktur. Diese Expertise kann knapp und kostspielig sein, was für all diejenigen Unternehmen eine Herausforderung darstellt, die ihre hochmodernen Inferenzfähigkeiten ohne erhebliche Investitionen in qualifiziertes Personal aufrechterhalten wollen.
Baseten bietet eine optimierte Inferenzinfrastruktur, die auf NVIDIAs Hardware und Software basiert, um die Herausforderungen in Bezug auf Skalierbarkeit, Kosteneffizienz und Expertise in der Bereitstellung zu lösen.
Mit automatischen Skalierungsfunktionen ermöglicht Baseten seinen Kunden, ihre Modelle bereitzustellen, um die Anzahl der Replikate basierend auf Verbrauchertraffic und Service-Level-Vereinbarungen dynamisch anzupassen, um sicherzustellen, dass die Kapazität der Nachfrage entspricht, ohne dass manuelle Eingriffe erforderlich sind. Dies hilft bei der Kostenoptimierung, da die Infrastruktur von Baseten je nach Anzahl der Anfragen an das Modell leicht nach oben oder unten skaliert werden kann. Es entstehen nicht nur keine Kosten für die Kunden, wenn keine Aktivität vorliegt, sondern sobald eine Anfrage eingeht, benötigt die Baseten-Infrastruktur, die von NVIDIA-GPUs auf AWS EC2-Instanzen mit NVIDIA A100 Tensor Core-GPUs unterstützt wird, nur 5 bis 10 Sekunden, um das Modell in Betrieb zu nehmen. Dies ist eine unglaubliche Geschwindigkeitserhöhung bei Kaltstart, die zuvor bis zu 5 Minuten dauerte, d. h. es handelt sich um eine Beschleunigung um das 30- bis 60-Fache. Die Verbraucher können zudem aus einer Vielzahl von auf Baseten verfügbaren NVIDIA GPUs auswählen, um ihre Modellinferenz zu beschleunigen, einschließlich, aber nicht beschränkt auf NVIDIA A100, A10G, T4 und V100 Tensor Core GPUs.
Außerdem nutzt Baseten neben der NVIDIA Hardware auch NVIDIA Software. Durch den Einsatz der TensorRT-LLM-Funktion der Tensor-Parallelität, die auf AWS bereitgestellt wird, konnte Baseten seine Inferenzleistung für die TensorRT-LLM-Bereitstellung eines Kunden durch sein Open-Source-Framework Truss verdoppeln. Truss ist Basetens Open-Source-Pack- und Bereitstellungsbibliothek, welche es den Benutzern erlaubt, mühelos Modelle in der Produktion bereitzustellen.
TensorRT-LLM ist Teil von NVIDIA AI Enterprise, einer produktionstauglichen, sicheren End-To-End-Software-Plattform für Unternehmen, die beschleunigte KI-Software entwickeln und bereitstellen.
NVIDIAs Full-Stack-KI-Inferenzansatz spielt eine entscheidende Rolle darin, die ununterbrochene Nachfrage nach Basetens Echtzeit-Kundenanwendungen zu bedienen. Dank der Verbesserungen durch NVIDIA A100 GPUs und TensorRT-LLM, ermöglicht die zugrunde liegende Infrastruktur sowohl Leistungszuwachs als auch Kosteneinsparungen für Entwickler.
Entdecken Sie mehr über Baseten und sehen Sie sich dieses kurze Demo-Video über ihr Produkt an.
Baseten ist Mitglied von NVIDIA Inception, einem kostenlosen Programm zur Förderung von Start-ups, die Branchen mit technologischen Fortschritten revolutionieren. Als Vorteil von Inception erhielt Baseten frühen Zugriff auf TensorRT-LLM, was eine bedeutende Chance zur Entwicklung und Bereitstellung von Hochleistungslösungen darstellt.
Schließen Sie sich dem weltweiten Netzwerk von NVIDIA Inception mit über 15.000 Tech-Startups an.