AI 基礎架構是什麼?

AI 基礎架構的設計,用於支援 AI 模型與應用程式開發、部署及管理。AI 基礎架構包括軟硬體技術,專為提升 AI 工作負載的效能、擴充性與效率而打造。

AI 基礎架構有哪些元件?

AI 基礎架構需要完整堆疊方案,無縫整合運算、資料、軟體框架、營運流程與網路技術。這樣一來,便可確保無論是資料擷取、模型開發、推論或持續改善,AI 生命週期的每個階段都能以高效的方式部署及管理,加速創新步伐並實現可擴充的效能。這些元件可能包括:

  • 加速運算資源:
    • 高效能 CPU 與 GPU
    • 內部部署伺服器及雲端技術的運算執行個體
    • 用於低延遲或頻寬受限環境中的邊緣運算裝置,可進行本地推論
  • 節能基礎架構:
    • 先進的光子與微影技術
    • 液體冷卻與熱排放技術,提升能源與用水效率
    • 資料中心電力系統創新與設計
    • 電網調節與靈活性
    • 整合式 OT (作業技術) 與 IT (資訊技術) 管理系統,監測及協調 AI 工廠的電力與冷卻系統
  • 資料儲存與管理:
    • 結構化與非結構化資料的資料湖與資料倉儲
    • 可擴充的儲存系統 (例如物件儲存系統、分散式檔案系統
    • 處理專門資料的資料庫解決方案
    • 資料流程與擷取框架
    • 版本管理與資料歸整,確保資料的可追溯性與治理
  • 網路系統與連線能力:
    • GPU 之間的高效頻寬與低延遲通訊
    • 無損的遠端直接記憶體存取 (RDMA) 網路結構
    • 具決定性且可預測的效能,並具備低尾端延遲
    • 專為 AI 或 InfiniBand 打造的乙太網路
  • 軟體開發框架:
    • 深度學習函式庫
    • 機器學習函式庫
    • 分散式訓練框架
    • 資料處理框架
    • 大型語言模型與生成式 AI 函式庫
  • 大規模正式作業環境推論用的軟體
    • 叢集管理
    • 容器 (例如 Docker) 與協調系統 (例如 Kubernetes)
    • 高效率且高效能的推論堆疊
  • MLOps 平台:
    • 為 AI 工作流程量身打造的持續整合 / 持續交付 (CI/CD) 流程
    • 模型服務平台
    • 實驗追蹤與版本控管
    • 模型效能的監測與觀察工具
    • 自動化模型重新訓練與模型漂移偵測解決方案

AI 基礎架構與 IT 基礎架構的差異為何?

AI 基礎架構經過專門設計,採用 GPU、高速互連 (例如 InfiniBand 或光學乙太網路) 等專門硬體,以及最佳化的軟體堆疊,可同時滿足訓練與推論工作負載對於高傳輸量和低延遲的需求。這類架構若使用功率與冷卻需求高的高密度運算系統,機械、電力與液冷系統就必須搭配管理軟體才能高效執行。相較之下,傳統 IT 基礎架構的設計則是用於通用型運算、儲存與網路任務,支援資料庫、電子郵件與企業工作負載等應用,通常依賴 CPU 與傳統乙太網路。基本上,AI 基礎架構經過最佳化,可透過多個 GPU 核心同時執行成千上萬項運算,而 IT 基礎架構則是側重於單一伺服器工作負載的廣泛相容性。

AI 工廠的 AI 基礎架構

AI 工廠透過一系列互連的流程與元件運作,全都是為了將 AI 模型的建立與部署最佳化而設計。

AI 工廠所需要的 AI 基礎架構 (尤其是執行 AI 推理模型的環境),除了前述所有元件外,還需具備節能且具彈性運用的技術。軟體元件具備模組化、可擴展性,並以 API 為核心,將每個部分整合至一個一致性的系統。這種組合可確保持續更新與成長,讓企業隨著 AI 日新月異不斷進化。

AI 工廠的 AI 基礎架構以緊密整合的方式堆疊高效能運算系統、儲存系統、網路系統,以及電力與冷卻元件,支援代理型 AI物理 AI 以及高效能運算與 AI 工作負載的完整生命週期,包括資料擷取和預先處理、訓練、微調與即時推論。它通常包括 GPU 加速的伺服器、InfiniBand 或乙太網路這類高頻寬低延遲的互連技術、快速儲存系統、配電系統、冷卻系統以及協調軟體。這款基礎架構兼顧擴充性和效率,是 AI 工廠的數位生產線,可持續推進智慧模型的迭代與部署。

AI 基礎架構如何支援全方位的 AI 策略?

AI 需要仰賴平行處理與加速運算的專門硬體、軟體和 AI 演算法,必須跳脫傳統企業 IT 基礎架構的框架。傳統未加速的資料中心無法有效應對日益增長的 AI 工作負載需求,這些工作負載通常需要快速存取並處理大量資料。

現代 AI 基礎架構需要高容量且高效能的儲存解決方案,且必須能高效儲存及檢索大量資料。因此,設法改變現有儲存基礎架構的用途並非解方,打造 AI 專用的儲存基礎架構才是當務之急。專為加速基礎架構打造的 AI 軟體不僅是節省成本的必要條件,更在 AI 流程實現了最高的傳輸量。

AI 基礎架構的成本為何?

投資於能因應未來未知工作負載的基礎架構,是長期 AI 策略中關鍵的一環。此外,運用 GPU 平行處理的加速運算技術,不僅能加快執行資源密集型應用程式的速度,還能提升能源效率,長期節省成本。

雲端型解決方案可降低採購成本,並將資本支出 (CapEx) 轉為營運支出 (OpEx),為展開 AI 計畫提供符合成本效益方式。雲端解決方案雖然初期成本較低,但長期支出可能會逐漸增加。IT 領導者應評估長期的總體擁有成本 (TCO),並考慮資料儲存系統、運算資源與持續維護等因素。

一般而言,請務必將投資報酬 (ROI) 視為關鍵指標,總體擁有成本並非主要考慮因素。打造 AI 基礎架構需要專門的資源、謹慎規劃,並考量各種雲端與內部部署解決方案。組織的全端最佳化技術若與策略搭配恰到好處,便能克服建置 AI 基礎架構方面的難題,順利實現成果。

開始使用 NVIDIA AI 基礎架構

若要開始使用,請查看資料中心與 AI 基礎架構中心。您可在該中心找到資源,利用 NVIDIA 全端解決方案將資料中心與 AI 工廠最佳化。

後續步驟

探索 NVIDIA AI 工廠

加速並部署專為 AI 工廠打造的全端 AI 基礎架構。

利用 NVIDIA 參考架構打造

利用 NVIDIA 企業參考架構打造安全可擴充的高效能 AI 基礎架構,將效率最佳化,並確保 AI 工廠能滿足運算密集的需求。

體驗 NVIDIA DGX™ 平台的優勢

集 NVIDIA AI 之大成。