為自駕車等物理 AI 系統建構世界模型的過程,需要大量實際資料,尤其是不同地形與條件的影片和影像。蒐集這類資料需要大量資訊和數百萬小時的模擬影片片段,接著必須投入成千上萬小時的人力篩選和準備資料。有數十億個參數的神經網路接著會分析這個龐大的資料集,建立及更新 3D 環境的內部表示法,讓機器人能理解動態行為、預測運動和深度等變化,並針對潛在事件做好回應準備。世界模型透過深度學習持續改善,便能因應新情境及理解複雜的物理互動方式。訓練這些大型模型需耗費數百萬美元添購 GPU 運算資源。
世界模型可能有不同的類型:
NVIDIA Cosmos™ 模型這類世界基礎模型 (WFM),是符合基礎模型規模和通用性需求的專門世界模型類別。這些神經網路經過大量未標記資料集訓練,適用於廣泛的物理 AI 任務。這些模型具備泛化的特性,因此可當成預先訓練基礎模型使用,開發人員只需透過小規模任務專用資料集進行後期訓練,即可大幅加速開發各種物理 AI 應用。
這些 WFM 讓開發人員能將生成式 AI 應用於 2D 軟體以外的領域,在真實世界發揮功能,並減少實際試驗的必要性。雖然 AI 的應用一直以來侷限於數位領域,但世界模型讓 AI 能夠打進真實世界的體驗。
建構世界模型的部分關鍵要素如下:
資料庋用是預先訓練與持續訓練世界模型的重要步驟,對於處理大規模多模態資料格外重要。這個過程包含影像或影片資料的篩選、標註、分類與去重,確保在訓練或後期訓練高精度模型時使用的是高品質資料。
處理影片時,資料庋用必須先將影片分割轉碼為較小的片段,然後進行品質篩選,保留高品質的資料。尖端的視覺語言模型用於標註關鍵物體與動作,而影片嵌入則有助於語意去重,移除重複資料。
接著是整理及清理資料供訓練使用。在整個過程中,高效的資料協調可確保 GPU 之間的資料流順暢無礙,讓 GPU 能處理大規模資料,實現高傳輸量。
資料庋用完成後,開發人員必須能夠搜尋資料,找到特定測試案例的情境。有鑑於這些資料集的規模,這個過程可能猶如大海撈針。然而,有了從世界模型訓練而成的強大嵌入式模型,開發人員便可輕鬆快速執行語意搜尋,檢索目標情境,將後期訓練週期從數年加速至數天。
Token 化將高維度的視覺資料轉換為稱為「Token」的小單位,方便機器學習處理。Tokenizer 將影像與影片中的像素冗餘轉化為精簡的語意 Token,提升大規模生成式模型的訓練效率,而且以有限資源便能推論。主要有兩種方法:
這個方法可提升模型學習的速度與效能。
開發人員可從頭開始訓練世界模型架構,或是利用其他資料,為下游任務進行預先訓練基礎模型的後期訓練。
WFM 屬於通用模型,經過大量視覺資料訓練,可模擬物理環境。這些模型運用後期訓練框架,便可為機器人技術、自主系統和其他物理 AI 領域的精準應用量身打造。模型有多種後期訓練方式:
訓練架構包含資料準備、模型訓練、最佳化、效能評估與部署所需的函式庫、SDK 和工具,可讓開發人員輕鬆開始並簡化端到端開發流程。
推理模型的訓練方式是對預先訓練的大型語言模型或大型視覺語言模型進行後期訓練。這些模型也會在做出決定前,運用強化學習自行分析及推理。
強化學習 (RL) 是一種機器學習方式,也就是 AI 代理透過與環境互動的方式學習,並且根據行動得到獎懲。經年累月下來,這種方式會將決策最佳化,達到最佳結果。
RL 讓世界模型能隨機應變、規劃,並且根據資訊做出決策,對於需要透過推理完成複雜任務的機器人技術、自主系統和 AI 助理而言,是不可或缺的一環。
世界模型能深入理解三維環境的空間關係與物理行為,擴充 AI 功能。這樣一來,世界模型便能模擬逼真的因果情境,例如預測物件在複雜場景的移動與互動方式。
開發人員可善用世界模型的強大功能生成高品質資料,訓練工業和機器人應用的 AI 模型,例如工廠機器人、倉庫自動化,以及在高速公路或嚴峻地形運行的自駕車。物理 AI 系統需要符合視覺、空間與物理定律的大規模資料,才能透過擬真模擬學習。世界模型可為多種應用大規模高效生成這類資料。
世界模型透過理解物體的移動與互動原理,便能產生更擬真且符合物理定律的視覺內容。在某些情況下,高準確度模型可能以合成資料的形式輸出內容,而且可供訓練感知型 AI 使用。
目前的 AI 影片生成難以處理複雜的場景,而且對因果關係的理解有限。然而,世界模型搭配 3D 模擬平台與軟體,展現出更深入理解視覺情境因果關係的潛力,例如模擬工業機器人撿起上面都是殘骸的重物。
世界模型透過模擬真實世界動作及預測結果,協助物理 AI 系統學習、適應並做出更明智的決策。這些模型能讓系統「想像」不同的情境、測試動作,並從虛擬意見回饋學習,猶如自駕車在模擬器練習如何處理突然出現的障礙物或惡劣天氣條件。自主機器透過預測可能的結果,不需要在真實世界試驗就能規劃更智慧的動作,節省時間並降低風險。
世界模型與大型語言模型 (LLM) 結合時,可協助 AI 理解自然語言指令並更高效互動。舉例而言,送貨機器人可解讀「尋找最快路線」的語音請求,並模擬不同的路徑,決定最佳路線。
這種預測型智慧能讓物理 AI 模型更高效、應變能力更強且更安全,協助機器人、自駕車、智慧交通系統和工業機器,以更智慧的方式在複雜真實環境運作。
策略學習透過探索不同策略,找出最有效的行動。策略模型可協助機器人等系統,根據當前狀態與更廣泛的世界狀態,決定應採取的最佳行動。這個模型能在系統狀態 (如位置) 與動作 (如移動) 之間建立連結,最終實現目標或提升效能。對模型進行後期訓練便能衍生出策略模型。策略模型通常用於 RL,透過互動和意見回饋學習。
運用推理世界模型篩選及評估合成資料,便可快速提升品質與相關性。
世界模型能探索多種策略,並針對最有效的結果給予獎勵。加入獎勵模組即可執行模擬,並且建構追蹤資源使用情況的成本模型,大幅提升實際任務的效能與效率。
世界模型搭配 3D 模擬器使用時可當成虛擬環境使用,以安全的方式簡化及擴充自主機器訓練。開發人員若能生成、庋用及編碼影片資料,便能更有效訓練自主機器感知和理解動態環境並與之互動。
世界模型在自駕車 (AV) 流程的每個階段發揮了顯著優勢。開發人員運用預先標註及編碼的影片資料,能夠更準確庋用及訓練 AV 堆疊辨識車輛、行人與物體的行為。這些模型可根據文字和視覺輸入內容產生預測性影片模擬,並生成不同交通模式、路況、天氣和光線等新情境,對驅動車輛的推理視覺語言動作模型進行後期訓練,加速測試和驗證。
世界模型可生成擬真合成資料和預測性世界狀態,協助機器人培養空間智慧。這些模型利用物理模擬器驅動的虛擬模擬環境,讓機器人以安全高效的方式演練任務,透過快速測試與訓練加速學習。世界模型幫助機器人從多樣化的資料與經驗學習,隨機應變。
改良的世界模型透過模擬物體互動、預測人類行為,以及引導機器人精準達成目標,強化規劃能力。此外,這些模型會進行多次模擬,並且從意見回饋學習,強化決策能力。開發人員運用虛擬模擬可降低真實世界測試的風險,並且縮短時間及節省成本與資源。
世界模型經過豐富的多模態資料和進階推理能力訓練,可對大量錄製與直播影片執行複雜的影片分析。這些模型超越傳統電腦視覺方法,支援自然語言問答、自動摘要、物件偵測、事件定位,以及更豐富的影片內容情境理解。世界模型還能針對邊緣案例生成擬真的合成資料,協助更高效訓練 AI 模型偵測重大事件。
世界模型的影像分析常用於工業和智慧城市環境,可提升安全與營運效率。範例包括識別工業安全方面的傷害風險與不安全行為;提供詳細的因果關係分析加速事件調查;監測智慧城市的交通、人流、公共安全事件與環境危害;以及透過視覺檢測找出生產線的瑕疵與異常狀況。