推論是指經過訓練的 AI 模型,透過推理和預測新資料生成新輸出結果的過程,而且會即時分類輸入內容並應用學到的知識。
AI 推論將機器學習與人工智慧技術引進現實世界,協助解決先進應用程式部署的難題。 從語音啟動的 AI 助理與個人化購物推薦,到強大的詐騙偵測系統,推論技術正遍佈各地的 AI 工作負載。
相關
AI 訓練是指 AI 模型或神經網路根據訓練資料調整權重,學習執行特定任務的過程。 這個過程需要多次反覆迭代,以達到高準確度,處理大型資料集且參數不斷變動的狀況更是如此。
推論是將訓練有素的模型應用於實際資料,透過預測或分類生成全新輸出。 此階段針對速度與效率進行了最佳化,通常採用推測性解碼、量化、剪定與層融合等技術,在提升效能的同時保持準確度。
隨著模型愈加複雜,尤其是先進的 AI 推理模型,需要更多的推論運算資源。 企業必須擴充加速運算資源,支援新一代的 AI 工具,讓複雜的問題得以解決,並實現編碼和多步驟規劃。
圖片描述:這張圖表說明 LLM 模型推論的流程,從使用者提示的 token 化開始,一直到兩個 GPU 階段:預先填充 (輸入 token 處理) 和解碼 (輸出 token 生成)。 端對端要求延遲包括 token 化、預先填充、解碼以及去 token 化,轉換為人類可讀取的輸出時間。
每個 token 的成本:AI 推論的成本通常是以每個 token 的成本來衡量。 處理和生成 token 所需的運算資源可能非常龐大,尤其是多模態大型語言模型。
| 推論部署類型 | 說明 |
| 批次推論 | 結合多項使用者要求,將 GPU 使用率提升至極,為眾多使用者提供高傳輸量。 |
| 即時推論 | 立即處理傳來的資料,對於需要立即做出決策的應用程式,例如自駕車或影片分析而言至關重要。 |
| 分散式 | 同時在多個裝置或節點執行 AI 推論,實現並行運算,可為大型模型高效擴充並降低延遲。 |
| 分解 | AI 思維過程劃分為兩個不同的階段:初始分析與回應生成,並且在專用電腦執行各階段以提高效率。 |
大型語言模型 (LLM) 推論是生成式 AI 應用、聊天機器人與文件摘要的關鍵元件。 這些應用程式需要在高效能、低延遲與資源利用之間取得平衡,才能提供順暢的使用者體驗,並且維持成本效益。
評估 LLM 推論的三大主要指標包括:首次生成 token 的時間、輸出 token 的時間與良好產出。
衡量系統生成第一個 token 的時間,這對於維持使用者參與度至關重要。 TTFT 較短可確保使用者迅速收到初始回應,這對於維持使用者參與度與滿意度舉足輕重。
測量生成每個後續 token 的平均時間,影響推論流程的整體速度與效率。 減少 TPOT 對於確保快速生成整個回應舉足輕重,這對於聊天機器人與即時翻譯等即時應用尤為重要。
透過測量傳輸量來平衡延遲、效能與成本,同時維持 TTFT 與 TPOT 的目標,為企業目標最佳化 AI 推論。
AI 推論的主要挑戰是平衡延遲、成本與傳輸量。高效能通常需要過度佈建 GPU,而這麼做會增加成本。 即時延遲需要更多 AI 基礎架構,或更小的批次規模,而這可能會降低效能。 既要低延遲和高傳輸量,又要不增加成本,兩全其美非常困難,因此資料中心往往必須做出取捨。
圖片描述:AI 推論的核心挑戰是平衡延遲、成本與傳輸量。當您偏重其中一項時,可能需要在另一項上做出最大價值的取捨。
以下最佳化技術可用於協助克服這些難題:
| 技術 | 挑戰 |
進階批次處理 |
動態、序列與內部批次處理等技術,可將 GPU 使用量最佳化,平衡傳輸量與延遲。 |
分組預先填充 |
將輸入分解為更小的區塊,縮短處理時間與成本。 |
多塊注意力 |
將注意力機制最佳化,專注於相關的輸入部分,減少運算負載與成本。 |
模型組合 |
採用多種演算法,提升預測的準確度與穩健性。 |
動態擴充 |
即時調整 GPU 資源,將成本最佳化,並在高峰負載時維持高效能。 |
企業實施這些先進的技術與最佳實踐,可確保 AI 應用程式提供高效能、低延遲與符合成本效益,最終提升使用者體驗與營運成果。
AI 推論利用一種稱為 test-time scaling (測試時縮放) 的全新擴展定律,讓推理模型執行一系列的推論傳遞。 這個過程需要模型反覆「思考」問題,建立更多輸出 token 和更長的生成週期,有助於生成更高品質的回應。 大量的測試時運算能力對於支援即時推論以及提升推理模型的回應品質至關重要。
AI 工廠是大規模的運算基礎架構,旨在將 AI 模型的開發、部署與持續改善自動化。 AI 推論在這些系統中扮演關鍵的角色,因為它是訓練有素的模型生成真實世界的預測與決策的最後階段。 在 AI 工廠開發模型後,便會經過最佳化與部署以用於推論,在雲端、混合式或內部部署的環境提供高效能且低延遲的 AI 服務。
AI 工廠也透過持續最佳化與管理加速的 AI 基礎架構,確保推論保持高效。 此外,透過設定 AI 資料飛輪,推論結果可回饋 AI 工廠,讓模型根據實際資料持續學習與改善。 這種回饋循環可協助 AI 系統進化,隨著時間的推移提升準確度與效率。 AI 工廠將 AI 推論緊密整合至工作流程,讓各行各業的 AI 部署皆可擴充且符合成本效益。
NVIDIA 提供全方位的函式庫、軟體與服務,協助您著手 AI 推論。 NVIDIA 擁有最大的推論生態系統、專用加速軟體、先進的網路,以及業界頂尖的每瓦效能,為這個 AI 運算新紀元提供高傳輸量、低延遲與符合成本效益的解決方案。