AI 推論解決方案

NVIDIA 推論平台

驅動效能與效率最高且獲利能力最強的 AI 工廠。

立即開始

閱讀系列 | 效能基準測試 | 適合開發人員

概覽
效能
優勢
平台
客戶案例
資源
後續步驟

概覽
效能
優勢
平台
客戶案例
資源
後續步驟

立即開始

概覽

如何透過擴充 AI 推論獲利？

我們透過聊天機器人、Copilot 與創意工具體驗 AI 的方式，也就是所謂的 AI 推論，正以超乎想像的速度急遽擴大。使用者採用率持續加速，與此同時，在代理工作流程、長思考推理與混合專家 (MoE) 模型驅動之下，每次互動所生成的 AI Token 數量也同步飆升。

為了實現這種大規模推論，NVIDIA 每年都會推出資料中心規模的架構。我們極致的軟硬體共同設計，讓效能大幅躍升，並降低每 Token 成本，讓先進的 AI 體驗大規模普及且符合成本效益。

NVIDIA GB300 NVL72 相較於 Hopper™，每瓦 Token 效能提升 50 倍，而且 Token 成本降低 35 倍，在相同的電力預算內將利潤最大化，並帶動更高的利潤率。持續軟體最佳化讓晶片、機架與資料中心規模充分發揮最高效能，經年累月進一步提高投資報酬率。

NVIDIA Vera Rubin 引領新一代 AI 發展

NVIDIA Vera Rubin 平台搭載的七款新晶片現已全面量產，讓全球最大的 AI 工廠持續擴大規模。

閱讀部落格文章

頂尖推論供應商運用 NVIDIA Blackwell 的開源模型，最高將 AI 成本降低 10 倍

Baseten、Deep Infra、Fireworks AI 與 Together AI 在 NVIDIA Blackwell 平台執行最佳化的推論堆疊，正降低各行各業每單位 Token 的成本。

閱讀部落格文章

推論效能帶動 Token 成本降低

按一下即可放大影像

DeepSeek-R1 8K/1K 成果顯示，NVIDIA Blackwell GB200 NVL72 比 Hopper H200 擁有 15 倍效能優勢與營收機會。

優勢

最高效能讓收益最大化

NVIDIA GB300 NVL72 採用極致的軟硬體共同設計，每瓦產出的 Token 是 Hopper 的 50 倍，在相同的功率預算內，將 AI 工廠收益最大化。持續軟體最佳化讓晶片、機架與資料中心規模充分發揮最高效能，經年累月進一步提高投資報酬率。

最低的 Token 成本擴大利潤率

NVIDIA GB300 NVL72 系統相較於 NVIDIA Hopper 平台，每 Token 成本低 35 倍，帶動 AI 工廠提升利潤率。隨著每一代演進，效能提升幅度遠超過基礎設施成本增長，創造出更有利的經濟條件，大規模實現先進的 AI 體驗。

完整堆疊將每個模型與使用案例最佳化

NVIDIA 支援生成式 AI、傳統 ML、科學運算、生物學與物理 AI 的所有模型。無論是對延遲敏感的即時應用，還是傳輸量高的批次處理，NVIDIA 都能為每個使用案例締造最優異的效能。該平台提供最高的靈活性與可程式化能力，可隨工作負載與業務需求不斷演變選擇最佳配置。

原生整合加速部署

NVIDIA 有 Dynamo 和 TensorRT™ LLM 在內的正式環境就緒軟體，並與 PyTorch、vLLM、SGLang 與 llm-d 等頂尖框架原生整合，實現最穩健的 AI 推論堆疊。模型架構與推論技術瞬息萬變，而 NVIDIA 的堆疊可確保創新以最快的速度正式上線。

平台

極致的軟硬體共同設計

強大的硬體少了智慧型協調系統，潛力將無從發揮；卓越的軟體少了快速的硬體，推論效能也將大打折扣。NVIDIA 的推論平台提供持續最佳化的完整堆疊解決方案，以及共同設計的運算、網路、儲存與軟體，為各種工作負載實現最高效能。

探索幾種關鍵的 NVIDIA 軟硬體創新技術。

NVIDIA Vera Rubin NVL72

NVIDIA Vera Rubin 平台的每瓦效能提升 10 倍，而且每單位 Token 成本比 Blackwell 低 10 倍。該平台透過極致的共同設計，結合 Rubin GPU 實現大規模情境預填充，並搭配 LPX 實現快速解碼，速度與規模兼顧。

探索七款新晶片與一部 AI 超級電腦

NVIDIA Grace Blackwell Ultra NVL72

GB300 NVL72 採用 72 顆連接 130 TB/s NVLink™ 的 B300 GPU，彼此的通訊順暢無礙，並大規模解鎖大量混合專家模型。

體驗 GB200 NVL72 卓越的 AI 推理效能

NVIDIA Dynamo

NVIDIA Dynamo 是開源的分散式推論服務框架，可在 AI 工廠規模的多節點環境部署模型。它解耦推論、將路由最佳化，並透過資料快取將記憶體延伸至符合成本效益的儲存層，進而簡化分散式服務。

利用 Dynamo 在多個節點無縫部署

TensorRT LLM

TensorRT LLM 是開源函式庫，在 NVIDIA GPU 實現持續最佳化的高效能即時 LLM 推論。它採用模組化 Python 執行環境、PyTorch 原生編寫方式，以及穩定的正式環境 API，經過最佳化，可將傳輸量最大化、將成本降至最低，並且提供快速的使用者體驗。

利用 TensorRT LLM 將推論最佳化

剖析效能柏拉圖法則 (Performance Paretos)

您可曾想過，複雜的 AI 折衷方案如何轉化為實際成果？在以下效能曲線探索不同的點，親身體驗極致的軟硬體共同設計如何讓 NVIDIA Blackwell Ultra 成為效能、效率與獲利能力最優異的選擇。

TPS / user

–

TPS / MW

–

模擬聊天體驗

DeepSeek R1 ISL = 32K、OSL = 8K、並採用 GB300 NVL72 架構，支援 FP4 Dynamo 解耦技術。 H100 搭配 FP8 動態批次處理。預期效能可能會有所變更。

您可曾想過，每個配置是如何轉換為真實的使用者體驗？按一下「Explore with TJ」，即可獨自探索或在 TJ 的引導下探索曲線，並在右側的模擬聊天查看實際運作情形。

透過 NVIDIA Dynamo AI Configurator 深入探索

客戶案例

產業領導者如何利用 AI 推論促進創新

更多客戶案例

Amdocs

Accelerate Generative AI Performance and Lower Costs

Read how Amdocs built amAIz, a domain-specific generative AI platform for telcos, using NVIDIA DGX™ Cloud and NVIDIA NIM inference microservices to improve latency, boost accuracy, and reduce costs.

Read Case Study

Snapchat

Enhancing Apparel Shopping With AI

Learn how Snapchat enhanced the clothes shopping experience and emoji-aware optical character recognition using Triton Inference Server to scale, reduce costs, and accelerate time to production.

Read Case Study

Amazon

Accelerate Customer Satisfaction

Discover how Amazon improved customer satisfaction by accelerating their inference 5X faster with TensorRT.

Read Case Study

資源

準備好開始了嗎？

探索著手開發 AI 應用所需的一切，包括最新文件、教學課程與技術部落格文章等。

開始開發開始打造

尋找適合推論工作負載的硬體

NVIDIA 資料中心解決方案可經由指定的 NVIDIA 合作夥伴網路 (NPN) 取得。探索靈活且經濟實惠的選項，透過合作夥伴網路取用最新的 NVIDIA 資料中心技術。

瀏覽 NVIDIA 商店

取得 NVIDIA AI 推論的最新消息

訂閱以接收 NVIDIA 最新的 AI 推論消息、更新等內容。

掌握最新消息

NVIDIA 推論平台