Cosmos 벤치마크는 로봇 공학 및 자율 시스템에 필수적인 3D 일관성 및 물리 정렬과 같은 고급 기준을 통해 차세대 세계 모델을 평가하도록 설계되었습니다.
비디오 합성을 위한 기본 생성 모델인 비디오LDM(VLDM)과 비교했을 때, Cosmos WFM은 샘슨 에러가 낮고 시간적 안정성이 뛰어나 기하학적 정확도가 우수합니다. 또한 벤치마크는 중력 및 충돌 역학과 같은 물리적 동작을 기반으로 WFM을 평가합니다.
Cosmos WFM은 시각적 일관성 측면에서 VLDM을 지속적으로 능가하며 최대 14배 높은 포즈 추정 성공률을 달성합니다. 디퓨전 모델은 기본적으로 더 높은 충실도를 제공하는 반면, 자동 회귀 모델은 커스텀 모델에 탁월한 성능을 제공합니다.