Große Sprachmodelle (LLMs) stellen einen großen Sprung in der KI-Entwicklung dar, mit dem Versprechen, ganze Bereiche durch erlerntes Wissen zu transformieren. Die Größe der LLM-Modelle hat sich in den letzten Jahren von Jahr zu Jahr verzehnfacht, und nicht nur die Modelle werden größer und komplexer, sondern auch ihre Fähigkeiten.
Dennoch sind LLMs schwer zu entwickeln und zu unterhalten, was sie für die meisten Unternehmen in unerreichbare Ferne rückt.
für die Erstellung von Marketingtexten und Storylines.
für Neuigkeiten und E-Mails.
für Branding und Gaming-Charaktere.
für intelligente Q&A-Sessions und Kundensupport in Echtzeit.
für die dynamische Kommentar- und Funktionsgenerierung.
für Sprachen und Wikipedia.
Der NeMo LLM-Dienst, der auf der NVIDIA-KI-Plattform ausgeführt wird, bietet Unternehmen den schnellsten Weg zum Anpassen und Bereitstellen von LLMs in privaten und öffentlichen Clouds oder zum Zugriff darauf über den API-Dienst.
Der NeMo LLM-Dienst macht das NVIDIA Megatron 530B-Modell als Cloud-API verfügbar. Testen Sie die Funktionen des 530B-Modells entweder über den Spielplatz oder über REST(Representational State Transfer)-APIs.
NeMo Megatron ist ein End-to-End-Framework für das Training und die Bereitstellung von LLMs mit Milliarden oder Billionen von Parametern.
Das containerisierte Framework bietet eine hohe Trainingseffizienz für Tausende Grafikprozessoren und erleichtert Unternehmen die Erstellung und den Einsatz umfangreicher Modelle. Es bietet Funktionen zum Zusammenstellen von Trainingsdaten, zum Trainieren umfangreicher Modelle mit bis zu Billionen von Parametern, zur Anpassung mithilfe von schnellem Lernen und zur Bereitstellung mit dem NVIDIA Triton™ Inference Server, um umfangreiche Modelle auf mehreren GPUs und mehreren Knoten auszuführen.
NeMo Megaton ist für die Ausführung auf NVIDIA DGX™ Foundry, NVIDIA DGX SuperPOD™, Amazon Web Services, Microsoft Azure und Oracle Cloud Infrastructure optimiert.
Datenwissenschaftler und Ingenieure erweitern mit großen Sprachmodellen die Grenzen des Möglichen. NVIDIA Triton™ Inference Server ist eine Open-Source-Inference-Serving-Software, mit der LLMs bereitgestellt, ausgeführt und skaliert werden können. Sie unterstützt die Inferenz auf mehreren GPUs mit mehreren Knoten für große Sprachmodelle mithilfe eines FasterTransformer-Backends. Triton nutzt Tensor- und Pipelineparallelität sowie MPI (Message Passing Interface) und die NVIDIA Collective Communication Library (NCCL) für verteilte Hochleistungs-Inferenz und unterstützt GPT, T5 und andere LLMs. Die LLM-Inferenzfunktion befindet sich in der Betaphase.
BioNeMo ist ein KI-gestützter Cloud-Dienst und ein Framework für die Arzneimittelforschung, das auf NVIDIA NeMo Megatron basiert und dem Training und der Bereitstellung großer biomolekularer Transformator-KI-Modelle im Supercomputing-Maßstab dient. Der Dienst umfasst vorab trainierte LLMs und native Unterstützung für gängige Dateiformate für Proteine, DNA, RNA und Chemie und bietet Datenlader für SMILES für Molekularstrukturen und FASTA für Aminosäure- und Nukleotidsequenzen. Das BioNeMo-Framework steht auch zum Download zur Verfügung, sodass Sie es auf Ihrer eigenen Infrastruktur ausführen können.
Bleiben Sie auf dem Laufenden über die neuesten NVIDIA Triton Inference Server- und NVIDIA® TensorRT™-Produktupdates, Inhalte, Neuigkeiten und vieles mehr.
Sehen Sie sich die neuesten On-Demand-Sessions zu LLMs von NVIDIA GTCs an.
Informieren Sie sich über die sich entwickelnde Inferenz-Nutzungslandschaft, Überlegungen für optimale Inferenz und die NVIDIA KI-Plattform.
Testen Sie noch heute den NVIDIA NeMo LLM-Dienst.