Cosmos 3
首款具備原生推理、世界與行動產生功能的 omni 模型。使用 Mixture-of-Transformers 打造。
將其當成視覺語言模型 (VLM) 時,可在複雜的真實世界情境中對物件、互動與意圖進行推理。
針對品質檢查、公共安全、交通監控、物流與自動駕駛等領域,提供即時警示與密集字幕。
將 Cosmos 3 當作世界行動模型 (WAM) 的骨幹,加快機器人學習策略的速度。
在專用攝影機與具體資料上,針對廣義世界基礎模型進行後期訓練。策略模型會根據特定任務、領域與行為,大規模調整預先學習的動作。
以可控制、符合物理定律的世界模擬器形式執行,可預測多種方法、在封閉迴圈中評估結果,並整合出正確的行為。
跨環境、任務與條件調整迴圈,持續改善,無實際風險。
從文字、影像、影片、環境聲音與動作輸入中,產生無限個合理的未來景象。
運用影片生成技術,發揮想像力訓練物理 AI,不受實際拍攝內容限制。
影片
聆聽 NVIDIA 創辦人暨執行長黃仁勳在 2026 年國際電腦展上發表 NVIDIA Cosmos 3 的演講,這是全球最先進的基礎模型,能協助開發人員打造能理解、模擬並在真實世界中行動的自主系統。
入門選項
使用與 Cosmos 3 相同的技術、開放式框架與技能,讓全球開發人員可自訂、延伸物理 AI 技術,貢獻一臂之力。
利用 Cosmos Curator 快速篩選、註釋並去除大量感應器資料中的重複內容。
利用 Cosmos Evaluator 大規模審核生成式影像輸出並評分。
運用開放式後期訓練、評估、最佳化框架、推論指令碼與技能,快速建立、後期訓練或部署世界模型。
將程式碼代理程式轉變為物理 AI 開發的合成資料專家。
使用案例
建立機器人學習策略,讓具體代理程式能在真實環境中的已知與未知條件下運作。
產生自訂、多樣化且高擬真的感測器資料,以安全的方式訓練、測試與驗證自駕車。
在工業與城市環境中強化自動化、安全與營運效率。
有了 Cosmos,AI 代理程式可分析、總結並與即時或錄製的影片串流互動,以便:
效能
Cosmos 3 為 NVIDIA 硬體進行最佳化,藉此發揮最佳效能。NVIDIA RTX PRO 6000 Blackwell 系列伺服器,加速機器人、自駕車與 AI 代理的物理 AI 技術開發,涵蓋訓練、合成資料生成、模擬與推論等環節。
針對工業後期訓練與推論工作負載,在 NVIDIA Blackwell GB200 讓 Cosmos 世界基礎模型發揮最佳效能。
生態系
機器人、自駕車和視覺 AI 產業的模型開發人員都使用 Cosmos 加速物理 AI 發展。
Cosmos 3 使用 Mixture of Transformers 打造而成。推理與產生器模組採用不同的 Transformer,兼顧產生效率與效能。因此,模型會先推理後產生,進而在各方面展現頂尖的物理精準度。在此處深入瞭解架構。
所有人均可透過 NVIDIA 開放式模型授權取得 Cosmos 世界基礎模型。
Cosmos 3 現已在 GitHub 上開放,並針對每種模態與模組提供後期訓練指令碼。此外,NVIDIA TAO 7 提供一套代理技能與工具,用於微調視覺 AI 模型,包括 Cosmos 3,以及程式碼代理程式與自然語言提示。在 GitHub 上下載 TAO 7 代理技能與工具。
是,您可以利用 Cosmos 使用自己偏好的基礎模型或模型架構,從頭開始建置。 您可以先使用 Cosmos Curator 進行影片資料預處理。然後利用 Cosmos 符元化工具 壓縮並解碼資料。 處理完資料後,即可訓練或微調模型。
透過 NVIDIA NIM™ 微服務,您可以輕鬆地將物理 AI 模型整合到雲端、資料中心和工作站的應用程式。
您也可以使用 NVIDIA DGX Cloud 訓練 AI 模型,並大規模部署在任何地方。
Cosmos 3 是一種 omni 模型,可跨文字、影像、影片、聲音與動作產生內容。Cosmos 2.5 與 Cosmos 2 則保留了獨立感知與產生模型與模式,且僅限於文字、影像與影片。
Omniverse 利用不同的生成 API、SDK 和 NVIDIA RTX 渲染技術,為實際任務建立逼真的 3D 模擬。
開發人員可將 Omniverse 模擬作為教學影片輸入 Cosmos Transfer 模型,生成可控的擬真合成資料。
Omniverse 提供訓練前後模擬環境,而 Cosmos 則提供基礎模型,用於生成影片資料與訓練物理 AI 模型。
深入瞭解 NVIDIA Omniverse。