AI 基礎架構的設計,用於支援 AI 模型與應用程式開發、部署及管理。AI 基礎架構包括軟硬體技術,專為提升 AI 工作負載的效能、擴充性與效率而打造。
AI 基礎架構需要完整堆疊方案,無縫整合運算、資料、軟體框架、營運流程與網路技術。這樣一來,便可確保無論是資料擷取、模型開發、推論或持續改善,AI 生命週期的每個階段都能以高效的方式部署及管理,加速創新步伐並實現可擴充的效能。這些元件可能包括:
AI 基礎架構經過專門設計,採用 GPU、高速互連 (例如 InfiniBand 或光學乙太網路) 等專門硬體,以及最佳化的軟體堆疊,可同時滿足訓練與推論工作負載對於高傳輸量和低延遲的需求。這類架構若使用功率與冷卻需求高的高密度運算系統,機械、電力與液冷系統就必須搭配管理軟體才能高效執行。相較之下,傳統 IT 基礎架構的設計則是用於通用型運算、儲存與網路任務,支援資料庫、電子郵件與企業工作負載等應用,通常依賴 CPU 與傳統乙太網路。基本上,AI 基礎架構經過最佳化,可透過多個 GPU 核心同時執行成千上萬項運算,而 IT 基礎架構則是側重於單一伺服器工作負載的廣泛相容性。
AI 工廠透過一系列互連的流程與元件運作,全都是為了將 AI 模型的建立與部署最佳化而設計。
AI 工廠所需要的 AI 基礎架構 (尤其是執行 AI 推理模型的環境),除了前述所有元件外,還需具備節能且具彈性運用的技術。軟體元件具備模組化、可擴展性,並以 API 為核心,將每個部分整合至一個一致性的系統。這種組合可確保持續更新與成長,讓企業隨著 AI 日新月異不斷進化。
AI 工廠的 AI 基礎架構以緊密整合的方式堆疊高效能運算系統、儲存系統、網路系統,以及電力與冷卻元件,支援代理型 AI、物理 AI 以及高效能運算與 AI 工作負載的完整生命週期,包括資料擷取和預先處理、訓練、微調與即時推論。它通常包括 GPU 加速的伺服器、InfiniBand 或乙太網路這類高頻寬低延遲的互連技術、快速儲存系統、配電系統、冷卻系統以及協調軟體。這款基礎架構兼顧擴充性和效率,是 AI 工廠的數位生產線,可持續推進智慧模型的迭代與部署。
AI 需要仰賴平行處理與加速運算的專門硬體、軟體和 AI 演算法,必須跳脫傳統企業 IT 基礎架構的框架。傳統未加速的資料中心無法有效應對日益增長的 AI 工作負載需求,這些工作負載通常需要快速存取並處理大量資料。
現代 AI 基礎架構需要高容量且高效能的儲存解決方案,且必須能高效儲存及檢索大量資料。因此,設法改變現有儲存基礎架構的用途並非解方,打造 AI 專用的儲存基礎架構才是當務之急。專為加速基礎架構打造的 AI 軟體不僅是節省成本的必要條件,更在 AI 流程實現了最高的傳輸量。
投資於能因應未來未知工作負載的基礎架構,是長期 AI 策略中關鍵的一環。此外,運用 GPU 平行處理的加速運算技術,不僅能加快執行資源密集型應用程式的速度,還能提升能源效率,長期節省成本。
雲端型解決方案可降低採購成本,並將資本支出 (CapEx) 轉為營運支出 (OpEx),為展開 AI 計畫提供符合成本效益方式。雲端解決方案雖然初期成本較低,但長期支出可能會逐漸增加。IT 領導者應評估長期的總體擁有成本 (TCO),並考慮資料儲存系統、運算資源與持續維護等因素。
一般而言,請務必將投資報酬 (ROI) 視為關鍵指標,總體擁有成本並非主要考慮因素。打造 AI 基礎架構需要專門的資源、謹慎規劃,並考量各種雲端與內部部署解決方案。組織的全端最佳化技術若與策略搭配恰到好處,便能克服建置 AI 基礎架構方面的難題,順利實現成果。
若要開始使用,請查看資料中心與 AI 基礎架構中心。您可在該中心找到資源,利用 NVIDIA 全端解決方案將資料中心與 AI 工廠最佳化。