Überblick
KI-Inferenz – die Art und Weise, wie wir KI durch Chatbots, Copilots und kreative Tools erleben – skaliert mit einem doppelt exponentiellen Tempo. Die Akzeptanz durch die Benutzer nimmt immer mehr zu, während die Anzahl der KI-Token, die pro Interaktion generiert werden, aufgrund des Antriebs von agentischen Workflows, langfristigem Schlussfolgern und MoE-Modellen (Mixture-of-Experts) rasant steigt.
Um Inferenz in diesem großen Maßstab zu ermöglichen, bietet NVIDIA eine Architektur im Rechenzentrumsmaßstab mit einem jährlichen Rhythmus. Unser hochentwickeltes Hardware- und Software-Co-Design ermöglicht einen deutlichen Leistungssprung und senkt die Kosten pro Token. Dies macht hochentwickelte KI-Erfahrungen im großem Maßstab wirtschaftlich rentabel.
NVIDIA GB300 NVL72 bietet 50-mal mehr Tokens pro Watt und 35-mal niedrigere Token-Kosten im Vergleich zu Hopper™, wodurch der Umsatz bei gleichem Stromverbrauch maximiert und höhere Gewinnmargen erzielt werden. Kontinuierliche Softwareoptimierungen erzielen maximale Leistung auf Chip-, Rack- und Rechenzentrumsniveau und verbessern die Investitionsrendite im Laufe der Zeit weiter.
Vorteile
Dank extremem Hardware- und Software-Codesign liefert die NVIDIA GB300 NVL72 50-mal mehr Token pro Watt als Hopper und maximiert den Umsatz der KI-Fabrik bei gleichem Energiebudget. Kontinuierliche Softwareoptimierungen erzielen maximale Leistung auf Chip-, Rack- und Rechenzentrumsniveau und verbessern die Investitionsrendite im Laufe der Zeit weiter.
Das NVIDIA GB300 NVL72-System liefert 35-mal geringere Kosten pro Token im Vergleich zur NVIDIA Hopper-Plattform und sorgt für höhere Gewinnmargen für KI-Fabriken. Mit jeder Generation übertreffen die Leistungsverbesserungen die Infrastrukturkosten bei Weitem und sorgen für eine bessere Wirtschaftlichkeit, um fortschrittliche KI-Erlebnisse in großem Maßstab zu ermöglichen.
NVIDIA unterstützt jedes Modell über generative KI, herkömmliches ML, wissenschaftliches Computing, Biologie und physische KI. Von latenzsensiblen Echtzeitanwendungen bis hin zur Batchverarbeitung mit hohem Durchsatz liefert NVIDIA die beste Leistung für jeden Anwendungsfall. Die Plattform bietet maximale Flexibilität und Programmierbarkeit, um die optimale Konfiguration für sich entwickelnde Workloads und Geschäftsanforderungen zu wählen.
Die produktionsreife Software von NVIDIA, darunter Dynamo und TensorRT™ LLM, sowie die native Integration mit führenden Frameworks wie PyTorch, vLLM, SGLang und llm-d bieten den robustesten KI-Inferenz-Stack. Angesichts der rasanten Weiterentwicklung von Modellarchitekturen und Inferenztechniken gewährleistet die Technologieplattform von NVIDIA den schnellsten Weg von der Innovation bis zur Produktion.
Plattform
Leistungsstarke Hardware ohne intelligente Orchestrierung verschwendet Potenzial; großartige Software ohne schnelle Hardware führt zu einer langsamen Inferenzleistung. Die Inferenzplattform von NVIDIA bietet eine kontinuierlich optimierte Full-Stack-Lösung mit gemeinsam entwickelter Rechenleistung, Netzwerktechnik, Datenspeicher und Software, um höchste Leistung für verschiedene Workloads zu ermöglichen.
Entdecken Sie einige der wichtigsten Hardware- und Softwareinnovationen von NVIDIA.
Erfolgsgeschichten
Ressourcen
Nächste Schritte