世界模型是什麼?

世界模型是理解物理學和空間屬性等真實世界動態的神經網路。這類模型可運用文字、影像、影片和動作等輸入資料,生成模擬逼真物理環境的影片。物理 AI 開發人員運用世界模型生成自訂的合成資料或下游 AI 模型,用於訓練機器人自駕車

如何建構世界模型?

為自駕車等物理 AI 系統建構世界模型的過程,需要大量實際資料,尤其是不同地形與條件的影片和影像。蒐集這類資料需要大量資訊和數百萬小時的模擬影片片段,接著必須投入成千上萬小時的人力篩選和準備資料。有數十億個參數的神經網路接著會分析這個龐大的資料集,建立及更新 3D 環境的內部表示法,讓機器人能理解動態行為、預測運動和深度等變化,並針對潛在事件做好回應準備。世界模型透過深度學習持續改善,便能因應新情境及理解複雜的物理互動方式。訓練這些大型模型需耗費數百萬美元添購 GPU 運算資源。

世界模型可能有不同的類型:

  • 預測模型—這類模型根據文字提示、輸入影片,或是透過兩張影像之間的插值,預測世界生成並合成連續動作。這些模型能生成時序連貫的擬真場景,對於影片合成、動畫與機器人運動規劃等應用極具價值。
  • 風格轉換模型:這類模型透過模型網路 ControlNet 根據特定輸入引導輸出,以結構化引導 (例如分割圖、光達掃描、深度圖或邊緣偵測) 調控模型生成。這些模型以視覺方式呈現輸入指令,可控制版面配置與動作,並根據文字提示生成各種擬真結果。因此,對於需要結構化影像或影片合成的應用,例如數位孿生模擬與環境重建,這些模型極為實用。
  • 推理模型:這類模型接收多模態輸入內容,並進行時空分析。這些模型採用強化學習型思維鏈推理方法理解現況,判斷最佳行動。這些模型讓 AI 能夠處理複雜的任務,例如區分真實資料與合成資料、為機器人選擇有用的訓練資料、預測機器人行為,以及將自主系統的物流最佳化。

NVIDIA Cosmos™ 模型這類世界基礎模型 (WFM),是符合基礎模型規模和通用性需求的專門世界模型類別。這些神經網路經過大量未標記資料集訓練,適用於廣泛的物理 AI 任務。這些模型具備泛化的特性,因此可當成預先訓練基礎模型使用,開發人員只需透過小規模任務專用資料集進行後期訓練,即可大幅加速開發各種物理 AI 應用。

這些 WFM 讓開發人員能將生成式 AI 應用於 2D 軟體以外的領域,在真實世界發揮功能,並減少實際試驗的必要性。雖然 AI 的應用一直以來侷限於數位領域,但世界模型讓 AI 能夠打進真實世界的體驗。

建構世界模型的部分關鍵要素如下:

資料處理

資料庋用是預先訓練與持續訓練世界模型的重要步驟,對於處理大規模多模態資料格外重要。這個過程包含影像或影片資料的篩選、標註、分類與去重,確保在訓練或後期訓練高精度模型時使用的是高品質資料。

處理影片時,資料庋用必須先將影片分割轉碼為較小的片段,然後進行品質篩選,保留高品質的資料。尖端的視覺語言模型用於標註關鍵物體與動作,而影片嵌入則有助於語意去重,移除重複資料。

接著是整理及清理資料供訓練使用。在整個過程中,高效的資料協調可確保 GPU 之間的資料流順暢無礙,讓 GPU 能處理大規模資料,實現高傳輸量。

資料庋用完成後,開發人員必須能夠搜尋資料,找到特定測試案例的情境。有鑑於這些資料集的規模,這個過程可能猶如大海撈針。然而,有了從世界模型訓練而成的強大嵌入式模型,開發人員便可輕鬆快速執行語意搜尋,檢索目標情境,將後期訓練週期從數年加速至數天。

Token 化

Token 化將高維度的視覺資料轉換為稱為「Token」的小單位,方便機器學習處理。Tokenizer 將影像與影片中的像素冗餘轉化為精簡的語意 Token,提升大規模生成式模型的訓練效率,而且以有限資源便能推論。主要有兩種方法:

  • 離散式 Token 化:以整數形式表現影像與影片。
  • 連續式 Token 化:以連續向量形式表現影像與影片。

這個方法可提升模型學習的速度與效能。

後期訓練世界模型

開發人員可從頭開始訓練世界模型架構,或是利用其他資料,為下游任務進行預先訓練基礎模型的後期訓練。

WFM 屬於通用模型,經過大量視覺資料訓練,可模擬物理環境。這些模型運用後期訓練框架,便可為機器人技術、自主系統和其他物理 AI 領域的精準應用量身打造。模型有多種後期訓練方式:

  • 無監督後期訓練:利用未標記資料調整模型,讓模型從沒有明確標籤的新資料集學習表示法與模式。這個方法有助於廣泛泛化與領域轉移。
  • 監督式後期訓練:使用明確引導模型學習特定任務的標記資料集。這個方法能強化決策能力、改善結構化模式辨識,並且最終為採用 AI 技術的更複雜應用開發推理能力。

訓練架構包含資料準備、模型訓練、最佳化、效能評估與部署所需的函式庫、SDK 和工具,可讓開發人員輕鬆開始並簡化端到端開發流程。

強化學習

推理模型的訓練方式是對預先訓練的大型語言模型或大型視覺語言模型進行後期訓練。這些模型也會在做出決定前,運用強化學習自行分析及推理。

強化學習 (RL) 是一種機器學習方式,也就是 AI 代理透過與環境互動的方式學習,並且根據行動得到獎懲。經年累月下來,這種方式會將決策最佳化,達到最佳結果。

RL 讓世界模型能隨機應變、規劃,並且根據資訊做出決策,對於需要透過推理完成複雜任務的機器人技術、自主系統和 AI 助理而言,是不可或缺的一環。

世界模型有哪些優勢?

世界模型能深入理解三維環境的空間關係與物理行為,擴充 AI 功能。這樣一來,世界模型便能模擬逼真的因果情境,例如預測物件在複雜場景的移動與互動方式。

開發人員可善用世界模型的強大功能生成高品質資料,訓練工業和機器人應用的 AI 模型,例如工廠機器人、倉庫自動化,以及在高速公路或嚴峻地形運行的自駕車。物理 AI 系統需要符合視覺、空間與物理定律的大規模資料,才能透過擬真模擬學習。世界模型可為多種應用大規模高效生成這類資料。

擬真的影片生成

世界模型透過理解物體的移動與互動原理,便能產生更擬真且符合物理定律的視覺內容。在某些情況下,高準確度模型可能以合成資料的形式輸出內容,而且可供訓練感知型 AI 使用。

目前的 AI 影片生成難以處理複雜的場景,而且對因果關係的理解有限。然而,世界模型搭配 3D 模擬平台與軟體,展現出更深入理解視覺情境因果關係的潛力,例如模擬工業機器人撿起上面都是殘骸的重物。

預測型智慧

世界模型透過模擬真實世界動作及預測結果,協助物理 AI 系統學習、適應並做出更明智的決策。這些模型能讓系統「想像」不同的情境、測試動作,並從虛擬意見回饋學習,猶如自駕車在模擬器練習如何處理突然出現的障礙物或惡劣天氣條件。自主機器透過預測可能的結果,不需要在真實世界試驗就能規劃更智慧的動作,節省時間並降低風險。

世界模型與大型語言模型 (LLM) 結合時,可協助 AI 理解自然語言指令並更高效互動。舉例而言,送貨機器人可解讀「尋找最快路線」的語音請求,並模擬不同的路徑,決定最佳路線。

這種預測型智慧能讓物理 AI 模型更高效、應變能力更強且更安全,協助機器人、自駕車、智慧交通系統和工業機器,以更智慧的方式在複雜真實環境運作。

改良式策略學習

策略學習透過探索不同策略,找出最有效的行動。策略模型可協助機器人等系統,根據當前狀態與更廣泛的世界狀態,決定應採取的最佳行動。這個模型能在系統狀態 (如位置) 與動作 (如移動) 之間建立連結,最終實現目標或提升效能。對模型進行後期訓練便能衍生出策略模型。策略模型通常用於 RL,透過互動和意見回饋學習。

針對效率、準確度和可行性最佳化

運用推理世界模型篩選及評估合成資料,便可快速提升品質與相關性。

世界模型能探索多種策略,並針對最有效的結果給予獎勵。加入獎勵模組即可執行模擬,並且建構追蹤資源使用情況的成本模型,大幅提升實際任務的效能與效率。

世界模型有哪些實際應用?

世界模型搭配 3D 模擬器使用時可當成虛擬環境使用,以安全的方式簡化及擴充自主機器訓練。開發人員若能生成、庋用及編碼影片資料,便能更有效訓練自主機器感知和理解動態環境並與之互動。

自駕車

世界模型在自駕車 (AV) 流程的每個階段發揮了顯著優勢。開發人員運用預先標註及編碼的影片資料,能夠更準確庋用及訓練 AV 堆疊辨識車輛、行人與物體的行為。這些模型可根據文字和視覺輸入內容產生預測性影片模擬,並生成不同交通模式、路況、天氣和光線等新情境,對驅動車輛的推理視覺語言動作模型進行後期訓練,加速測試和驗證。

機器人技術

世界模型可生成擬真合成資料和預測性世界狀態,協助機器人培養空間智慧。這些模型利用物理模擬器驅動的虛擬模擬環境,讓機器人以安全高效的方式演練任務,透過快速測試與訓練加速學習。世界模型幫助機器人從多樣化的資料與經驗學習,隨機應變。

改良的世界模型透過模擬物體互動、預測人類行為,以及引導機器人精準達成目標,強化規劃能力。此外,這些模型會進行多次模擬,並且從意見回饋學習,強化決策能力。開發人員運用虛擬模擬可降低真實世界測試的風險,並且縮短時間及節省成本與資源。

影像分析

世界模型經過豐富的多模態資料和進階推理能力訓練,可對大量錄製與直播影片執行複雜的影片分析。這些模型超越傳統電腦視覺方法,支援自然語言問答、自動摘要、物件偵測、事件定位,以及更豐富的影片內容情境理解。世界模型還能針對邊緣案例生成擬真的合成資料,協助更高效訓練 AI 模型偵測重大事件。

世界模型的影像分析常用於工業和智慧城市環境,可提升安全與營運效率。範例包括識別工業安全方面的傷害風險與不安全行為;提供詳細的因果關係分析加速事件調查;監測智慧城市的交通、人流、公共安全事件與環境危害;以及透過視覺檢測找出生產線的瑕疵與異常狀況。

如何開始使用世界模型

NVIDIA Cosmos

Cosmos 是專為加速物理 AI 系統開發而打造的平台,採用尖端的生成式 WFM、先進的 Tokenizer、防護機制,以及加速的資料處理與庋用流程。

Cosmos 世界基礎模型

Cosmos WFM 是專為物理 AI 開發而打造的預先訓練模型系列,可生成具物理感知能力的影片與世界狀態。

NVIDIA Isaac GR00T

Isaac GR00T 是專為加速人形機器人技術而設計的積極研究計畫與開發平台。這個平台包含一系列機器人技術基礎模型、工作流程與模擬工具。