何謂 AI 推論?

推論是指經過訓練的 AI 模型,透過推理和預測新資料生成新輸出結果的過程,而且會即時分類輸入內容並應用學到的知識。

AI 推論有哪些優勢?

AI 推論將機器學習人工智慧技術引進現實世界,協助解決先進應用程式部署的難題。 從語音啟動的 AI 助理與個人化購物推薦,到強大的詐騙偵測系統,推論技術正遍佈各地的 AI 工作負載。 

  • 新的產品、工作流程與 AI 解決方案:推論支援測試時運算與 AI 推理。 DeepSeek-R1Google DeepMind 的 Gemini 2.0 Flash Thinking 和 NVIDIA Llama Nemotron™ 模型等模型都是全新類別的 AI 推理,或稱「長遠思考」模型。 推理模型會多次傳遞工作流程,並且在複雜的問題中推理,實現更高的準確度與可解釋性。 這只有低延遲、高效能推論才有可能實現。
  • 增強使用者體驗:高效能 AI 推論可為即時互動提供快速準確的回應,提升終端使用者體驗。 在確保使用者體驗高品質的同時,還能平衡每個 token 的成本與整體系統延遲。
  • 安全與可靠性:在機器人與自駕車等安全關鍵應用中,準確的即時推論至關重要。 低延遲推論可讓這些系統即時感知、解讀及回應環境,縮短回應時間,提升精確度與安全性。 
  • 工作流程自動化:AI 推論將重複性任務自動化、提升生產力、減少錯誤,並且釋放人力資源處理更複雜的作業。

AI 訓練與推論的主要差異

AI 訓練是指 AI 模型或神經網路根據訓練資料調整權重,學習執行特定任務的過程。 這個過程需要多次反覆迭代,以達到高準確度,處理大型資料集且參數不斷變動的狀況更是如此。

推論是將訓練有素的模型應用於實際資料,透過預測或分類生成全新輸出。 此階段針對速度與效率進行了最佳化,通常採用推測性解碼、量化、剪定與層融合等技術,在提升效能的同時保持準確度。

隨著模型愈加複雜,尤其是先進的 AI 推理模型,需要更多的推論運算資源。 企業必須擴充加速運算資源,支援新一代的 AI 工具,讓複雜的問題得以解決,並實現編碼和多步驟規劃。

AI 推論如何運作?

AI 推論,尤其是大型語言模型 (LLM) 的情境,透過生成 AI token 來運作,並且決定與這些 token 相關的速度、成本與使用者體驗。這種大型工作負載採用高效能 GPU 與網路等專用硬體,可提供運算與效率所需,並且透過加速運算技術,藉由完整堆疊軟體進一步最佳化。

圖片描述:這張圖表說明 LLM 模型推論的流程,從使用者提示的 token 化開始,一直到兩個 GPU 階段:預先填充 (輸入 token 處理) 和解碼 (輸出 token 生成)。 端對端要求延遲包括 token 化、預先填充、解碼以及去 token 化,轉換為人類可讀取的輸出時間。

模型推論


  • 輸入處理:當使用者提供輸入資料 (例如文字查詢) 時,AI 模型會處理這項輸入,並將其分解為 token。Token 是模型能理解與處理的最小文字單元。 例如:根據 token 化策略,句子可能細分為單詞、子詞,甚至是字元。
  • Token 生成:然後,模型使用輸入的 token 生成回應。 模型透過層次處理這些嵌入,生成符合情境的回應。 GPU 具有平行處理能力,因此通常用於此步驟,可大幅加速複雜模型的運算。
  • 輸出解碼:生成的 token 會組合成連貫的回應,然後回傳給使用者。

 

AI token 成本

每個 token 的成本:AI 推論的成本通常是以每個 token 的成本來衡量。 處理和生成 token 所需的運算資源可能非常龐大,尤其是多模態大型語言模型

  • 延遲:延遲是指 AI 推論生成每個 token 所需的時間。 低延遲對於即時 AI 應用而言至關重要,因為這可以提升使用者體驗。 然而,實現低延遲往往會增加成本,因為需要更強大的硬體與即時處理,這也可能增加運算負載。
  • 傳輸量:每單位時間可處理的 token 數量也會影響成本。 透過將模型最佳化,以及運用動態批次等技術,可實現更高的傳輸量。

AI 推論如何部署?

推論部署類型 說明
批次推論 結合多項使用者要求,將 GPU 使用率提升至極,為眾多使用者提供高傳輸量。
即時推論 立即處理傳來的資料,對於需要立即做出決策的應用程式,例如自駕車或影片分析而言至關重要。
分散式 同時在多個裝置或節點執行 AI 推論,實現並行運算,可為大型模型高效擴充並降低延遲。
分解 AI 思維過程劃分為兩個不同的階段:初始分析與回應生成,並且在專用電腦執行各階段以提高效率。

適用於生成式 AI 使用案例的大型語言模型 (LLM) 推論

大型語言模型 (LLM) 推論是生成式 AI 應用、聊天機器人與文件摘要的關鍵元件。 這些應用程式需要在高效能、低延遲與資源利用之間取得平衡,才能提供順暢的使用者體驗,並且維持成本效益。

評估 LLM 推論的三大主要指標包括:首次生成 token 的時間、輸出 token 的時間與良好產出。

首次生成 token 的時間 (Time to First Token,TTFT):使用者體驗

衡量系統生成第一個 token 的時間,這對於維持使用者參與度至關重要。 TTFT 較短可確保使用者迅速收到初始回應,這對於維持使用者參與度與滿意度舉足輕重。

每個輸出 token 的時間 (Time Per Output Token,TPOT):傳輸量

測量生成每個後續 token 的平均時間,影響推論流程的整體速度與效率。 減少 TPOT 對於確保快速生成整個回應舉足輕重,這對於聊天機器人與即時翻譯等即時應用尤為重要。

良好產出:系統效率

透過測量傳輸量來平衡延遲、效能與成本,同時維持 TTFT 與 TPOT 的目標,為企業目標最佳化 AI 推論。

AI 推論有哪些挑戰?

AI 推論的主要挑戰是平衡延遲、成本與傳輸量。高效能通常需要過度佈建 GPU,而這麼做會增加成本。 即時延遲需要更多 AI 基礎架構,或更小的批次規模,而這可能會降低效能。 既要低延遲和高傳輸量,又要不增加成本,兩全其美非常困難,因此資料中心往往必須做出取捨。

圖片描述:AI 推論的核心挑戰是平衡延遲、成本與傳輸量。當您偏重其中一項時,可能需要在另一項上做出最大價值的取捨。

以下最佳化技術可用於協助克服這些難題:

技術 挑戰

進階批次處理

動態、序列與內部批次處理等技術,可將 GPU 使用量最佳化,平衡傳輸量與延遲。

分組預先填充

將輸入分解為更小的區塊,縮短處理時間與成本。

多塊注意力

將注意力機制最佳化,專注於相關的輸入部分,減少運算負載與成本。

模型組合

採用多種演算法,提升預測的準確度與穩健性。

動態擴充

即時調整 GPU 資源,將成本最佳化,並在高峰負載時維持高效能。

企業實施這些先進的技術與最佳實踐,可確保 AI 應用程式提供高效能、低延遲與符合成本效益,最終提升使用者體驗與營運成果。

推論如何實現 AI 推理?

AI 推論利用一種稱為 test-time scaling (測試時縮放) 的全新擴展定律,讓推理模型執行一系列的推論傳遞。 這個過程需要模型反覆「思考」問題,建立更多輸出 token 和更長的生成週期,有助於生成更高品質的回應。 大量的測試時運算能力對於支援即時推論以及提升推理模型的回應品質至關重要。

AI 推論如何在 AI 工廠運作?

AI 工廠是大規模的運算基礎架構,旨在將 AI 模型的開發、部署與持續改善自動化。 AI 推論在這些系統中扮演關鍵的角色,因為它是訓練有素的模型生成真實世界的預測與決策的最後階段。 在 AI 工廠開發模型後,便會經過最佳化與部署以用於推論,在雲端、混合式或內部部署的環境提供高效能且低延遲的 AI 服務。 

AI 工廠也透過持續最佳化與管理加速的 AI 基礎架構,確保推論保持高效。 此外,透過設定 AI 資料飛輪,推論結果可回饋 AI 工廠,讓模型根據實際資料持續學習與改善。 這種回饋循環可協助 AI 系統進化,隨著時間的推移提升準確度與效率。 AI 工廠將 AI 推論緊密整合至工作流程,讓各行各業的 AI 部署皆可擴充且符合成本效益。

開始使用 AI 推論

NVIDIA 提供全方位的函式庫、軟體與服務,協助您著手 AI 推論。 NVIDIA 擁有最大的推論生態系統、專用加速軟體、先進的網路,以及業界頂尖的每瓦效能,為這個 AI 運算新紀元提供高傳輸量、低延遲與符合成本效益的解決方案。

後續步驟

瞭解 NVIDIA 推論

瞭解 NVIDIA 推論平台,包括 NVIDIA Dynamo 提供的全方位 AI 方法。

探索如何將推論最佳化

閱讀有關如何利用 NVIDIA 完整堆疊解決方案,將 AI 推論最佳化,實現高傳輸量與低延遲。

效能基準

參考推論效能基準,瞭解您最情有獨鍾的模型效能如何。