Cosmos-Benchmarks wurden entwickelt, um die nächste Generation von Weltmodellen mit fortschrittlichen Kriterien wie 3D-Konsistenz und Physik-Ausrichtung zu bewerten, die für Robotik und autonome Systeme unerlässlich sind.
Im Vergleich zu VideoLDM (VLDM), einem generativen Baseline-Modell für die Videosynthese, zeichnen sich Cosmos WFMs durch geometrische Genauigkeit mit geringeren Sampson-Fehlern und besserer zeitlicher Stabilität aus. Benchmarks bewerten WFMs auch auf der Grundlage von physischem Verhalten wie Schwerkraft und Kollisionsdynamik.
Cosmos WFMs übertreffen VLDM immer wieder bei der visuellen Konsistenz und erzielen eine bis zu 14-mal höhere Erfolgsrate bei der Posenschätzung. Während Diffusionsmodelle von Haus aus eine höhere Genauigkeit aufweisen, bieten autoregressive Modelle eine hervorragende Leistung bei benutzerdefinierten Modellen.