Les benchmarks Cosmos sont conçus pour évaluer la prochaine génération de modèles du monde avec des critères avancés comme la cohérence 3D et l'alignement physique, essentiels pour la robotique et les systèmes autonomes.
Comparés à VideoLDM (VLDM), un modèle générateur de référence pour la synthèse vidéo, les WFM Cosmos excellent dans le domaine de la précision géométrique avec un taux d'erreur Sampson plus faible et une meilleure stabilité temporelle. Les benchmarks évaluent également les modèles de fondation du monde basés sur des comportements physiques comme la gravité et la dynamique de collision.
Les modèles de fondation du monde Cosmos surpassent constamment les VLDM en matière de cohérence visuelle, atteignant des taux de réussite d'estimation de pose jusqu'à 14 fois plus élevés. Les modèles de diffusion offrent une meilleure fidélité dès l'emploi, mais les modèles autorégressifs offrent d'excellentes performances pour les modèles personnalisés.