物理 AI

NVIDIA Cosmos

一個專為物理 AI 打造的開放平台,搭載世界基礎模型 (WFM)、影像資料處理函式庫、影像評估與後期訓練框架。

實用手冊   |   技術文件   |   Discord

世界基礎模型

用於世界生成與理解的開放模型

Cosmos Predict

頂尖的世界生成模型,可因應任何物理 AI 任務或環境而調整。

利用 2B/14B 模型,從文字、影像或影片生成 30 秒預測性影像世界,或者對資料進行後期訓練,建立自訂的邊緣案例、閉環原則以及多個檢視畫面且以機器人為中心的模擬。

Cosmos Transfer

用於模擬到擬真轉換的多重控制模型。

搭配 CARLA 或 NVIDIA Isaac Sim™ 等物理 AI 模擬框架,加速各種環境與光照條件的合成資料生成

Cosmos Reason

頂尖的視覺語言模型 (VLM) 讓機器人與視覺 AI 代理像人類一樣推理。

結合先驗知識、物理原理與常識,為公共安全、交通監控、物流、品質檢查與物理 AI 提供即時警示與可據以行動的深入解析。

資料處理與評估

加速高效的資料集處理與評估。

Cosmos Curator

利用 Cosmos Curator 快速篩選、註釋並去除大量感應器資料中的重複內容。

Cosmos 資料集搜尋

利用 NVIDIA Cosmos 資料集搜尋 (CDS),即時查詢資料集及檢索情境。

Cosmos Evaluator

利用 Cosmos Evaluator 大規模審核生成式影像輸出並評分。

使用案例

Cosmos 如何在各行各業加速 AI

使用 Cosmos 世界基礎模型進行模擬、推理與資料生成,以支援機器人、自駕車和工業視覺系統的下游處理流程。

機器人學習

為下游任務、環境、攝影機或感應器佈局與原則量身打造世界模型。

  • 針對機器人特定檢視畫面或控制原則,對 Cosmos Predict 進行後期訓練
  • 利用 Cosmos Transfer 生成跨環境與光照條件的合成資料
  • 利用 Cosmos RL 框架後期訓練 Cosmos Reason,建置視覺語言動作 (VLA) 模型
  • 利用建置於 Cosmos 的 Physical AI Data Factory Blueprint 建立端到端合成資料擴充與評估流程

自駕車訓練

生成自訂、多樣化且高擬真的感應器資料,以安全的方式訓練、測試與驗證自駕車。

  • 透過 Cosmos Transfer,利用新的天氣、光線與地理位置資料,擴充現有資料的多樣性
  • 使用 Cosmos Predict 將視野擴展至多感測器視角
  • 利用建置於 Cosmos 的 Physical AI Data Factory Blueprint 建立端到端合成資料擴充與評估流程

影像分析 AI 代理

在工業與城市環境中強化自動化、安全與營運效率。

有了 Cosmos Reason,AI 代理程式可分析、總結與即時或錄製的影片串流互動,以便:

  • 提供即時問答和警示
  • 提供豐富的情境深入見解
  • 利用 NVIDIA Blueprint 從大規模影像資料擷取深入解析,進行影像搜尋與摘要撰寫

入門選項

開始使用 NVIDIA Cosmos

1

準備好建置了嗎?直接存取開放式模型與程式碼。

2

尚未準備好建置嗎?在我們的託管目錄中試用 Cosmos 模型。

3

 需要協助?立即開始參考我們的實作模型方法。

值得信賴的 AI

支援物理 AI 社群

Cosmos 模型、防護機制與符元化工具已於 Hugging Face 和 GitHub 上架,並因應物理 AI 模型訓練資料稀缺問題提供資源。

AI 基礎架構

利用 NVIDIA Blackwell 實現最佳效能

NVIDIA RTX PRO 6000 Blackwell 系列伺服器,加速機器人、自駕車與 AI 代理的物理 AI 技術開發,涵蓋訓練、合成資料生成、模擬與推論等環節。

針對工業後期訓練與推論工作負載,在 NVIDIA Blackwell GB200 讓 Cosmos 世界基礎模型發揮最佳效能。

生態系統

深受頂尖物理 AI 創新者的青睞

機器人、自駕車和視覺 AI 產業的模型開發人員都使用 Cosmos 加速物理 AI 發展。

後續步驟

加入 Cosmos 社群

與 Cosmos 專家交流、與其他開發人員互動、提供模型回饋,並瀏覽直播與方法來持續學習。

Cosmos Cookbook

這是一份全方位指南,可指導您與 NVIDIA Cosmos 生態系統有效合作,實現機器人技術、模擬、自主系統與物理場景理解的實際特定應用。

建置影像分析 AI 代理

使用 Cosmos Reason 搭配 NVIDIA Blueprint 來處理影片搜尋和摘要 (VSS),建置具備擴充性、能即時理解影片的 AI 代理。

資源

Cosmos 開發人員的最新消息

常見問題

[2026 年 1 月 22 日] 發布關於 Cosmos Policy 的研究,以 Cosmos Predict-2 為基礎,用於視覺運動控制與規劃。

[2026 年 2 月 9 日]增強新的 Cosmos Reason 2 運算支援、量化與 CUDA 相容性。

[2025 年 12 月 19 日] 透過 Hugging Face 發布 Cosmos-Predict2.5-2B Diffusers 支援、Hugging Face 上的 Cosmos-Predict2.5-2B Text2World 蒸餾檢查點以及蒸餾指南

[2025 年 12 月 19 日] 發佈 Cosmos Transfer 2.5 的 Image2Image 與 ImagePrompt 功能。 請參閱此處的推論指南。

探索 GitHub 深入瞭解

所有人均可透過 NVIDIA 開放式模型授權取得 Cosmos 世界基礎模型。

請參閱全新的 Cosmos 實用手冊,其中包含逐步方法和後期訓練指令碼,以快速打造、自訂及部署 NVIDIA Cosmos 世界基礎模型,適用於機器人與自主系統。

是,您可以利用 Cosmos 使用自己偏好的基礎模型或模型架構,從頭開始建置。 您可以先使用 Cosmos Curator 進行影片資料預處理。然後利用 Cosmos 符元化工具 壓縮並解碼資料。 處理完資料後,即可訓練或微調模型。

透過 NVIDIA NIM™ 微服務,您可以輕鬆地將物理 AI 模型整合到雲端、資料中心和工作站的應用程式。

您也可以運用 NVIDIA DGX Cloud 訓練 AI 模型,並大規模部署在任何地方。

這三者皆是具有獨特角色的世界基礎模型:

  • Cosmos Predict 可從文字、影像或影片指令生成各種影片場景,非常適合用於後期訓練與機器人或自駕車相關的領域主體。
  • Cosmos Transfer 採用多重控制的風格轉換技術,可針對由 NVIDIA Omniverse™ 等模擬器生成的物理模擬影片進行光照與環境變化處理。
  • Cosmos Reason 會基於影片與影像輸入進行推理,以回答查詢。Cosmos Reason 可從一段起始影片生成全新且多樣化的文字指令,以供 Cosmos Predict 使用,或是對 Predict 與 Transfer 所產生的合成資料進行評論與標註。

Omniverse 利用不同的生成 API、SDK 和 NVIDIA RTX 渲染技術,為實際任務建立逼真的 3D 模擬。

開發人員可將 Omniverse 模擬當成教學影片輸入 Cosmos Transfer 模型,生成可控制的擬真合成資料。

Omniverse 提供訓練前後的模擬環境,而 Cosmos 則提供基礎模型,用於生成影片資料並訓練物理 AI 模型。

深入瞭解 NVIDIA Omniverse