물리 AI

NVIDIA Cosmos

세계 파운데이션 모델을 사용하여 물리 AI 개발을 가속화합니다.

개요

NVIDIA Cosmos 란 무엇인가요?

NVIDIA CosmosTM는 최첨단 생성형 세계 파운데이션 모델(WFM), 고급 토큰라이저, 가드레일, 가속 데이터 처리 및 큐레이션 파이프라인으로 구성된 플랫폼으로 자율주행 차량(AV) 로봇과 같은 물리 AI 시스템의 개발을 가속화하기 위해 구축되었습니다.

물리 AI 개발자 커뮤니티에 오픈 라이선스로 제공되는 Cosmos 실제 환경 파운데이션 모델

수백만 시간의 운전 및 로봇 비디오 데이터를 훈련하여 물리 AI 개발을 민주화하는 최첨단 모델, 오픈 모델 라이센스에 따라 제공됩니다.

물리 AI 개발을 가속화하는 세계 파운데이션 모델 플랫폼

로봇 및 자율주행차와 같은 물리 인공지능 구현 시스템의 개발은 새로운 NVIDIA Cosmos 플랫폼으로 가속화된다.

이점

세계 파운데이션 모델을 이용한 물리 AI 개발 가속화

Cosmos는 개발자들에게 고성능 세계 파운데이션 모델 과 데이터 파이프라인에 대한 개방적이고 쉬운 액세스를 제공하여 모든 사람이 물리 AI 개발에 액세스할 수 있도록 합니다.

물리 인식

2천만 시간에 달하는 로봇 및 운전 데이터를 포함하여 9천조 개의 토큰으로 훈련된 1세대 비디오 모델 스위트 - 이미지, 텍스트 또는 비디오와 같은 다중 모드 입력으로 고품질 비디오를 생성합니다.

열기

Cosmos WFM과 토큰라이저는 NVIDIA 오픈 모델 라이선스(Open Model License)를 사용하며, 전 세계 개발자들이 높은 진입 비용 없이 물리 AI 시스템을 구축할 수 있도록 지원합니다.

데이터 처리 및 큐레이션 가속화

CUDATM-X의 NVIDIA NeMo Curator 파이프라인과 100PB 이상의 데이터를 처리할 수 있는 NVIDIA AI 가속 툴링을 통해 데이터 큐레이션 속도를 20배까지 높입니다. 즉시 사용 가능한 최적화를 제공하여 총 소유 비용(TCO)을 최소화하고 시장 출시 시간을 단축합니다.

개인화된 모델 개발

Cosmos 토큰이저는 시각적 데이터를 8배 더 나은 압축과 12배 더 빠른 처리를 통해 고충실도 토큰으로 변환합니다.

NVIDIA NeMoTM는 물리 AI를 위한 다중 모드 생성형 AI 모델을 구축하기 위한 가속화된 교육과 파인 튜닝을 제공합니다.

모델

NVIDIA Cosmos 세계 파운데이션 모델

물리 AI 개발을 위해 물리학 인식 비디오 및 세계 상태를 생성하기 위해 특별히 제작된 사전 훈련된 모델 제품군입니다.


여기에서 모델 아키텍처, 개발 리소스 및 가용성에 대해 자세히 알아보세요.

최첨단 모델의 제품군

  • 텍스트-투-월드 및 비디오-투-월드 생성용 자동 회귀 및 확산 모델은 다양한 요구에 맞게 4~140억 사이의 매개 변수 크기로 제공됩니다.
  • 텍스트 프롬프트를 개선하여 생성된 출력에서 정확도와 세부 사항을 향상시킬 수 있는 120억 파라미터 업 샘플링 모델.
  • 증강 현실 애플리케이션에 최적화된 비디오 시퀀스를 디코딩하기 위해 설계된 70억 파라미터 모델.

붙박이 난간

  • 브랜드, NSFW 콘텐츠 및 유해한 프롬프트를 필터링하기 위해 사전 보호.
  • 의심스러운 시나리오를 제거하기 위해 포스트 가드.
  • 인간의 얼굴을 흐리게 하는 가드레일.
  • NVIDIA API 카탈로그의 Preview API에서 생성된 합성 비디오의 디지털 워터마크.

벤치마크

육체적 인공지능 성능으로의 여정

NVIDIA는 로봇 및 자율주행 차량 생태계와 협력하여 세계 파운데이션 모델에서 물리 AI 애플리케이션의 고유한 요구 사항을 반영하는 벤치마크 세트를 개발하고 있습니다.

Cosmos 벤치마크는 로봇 공학 및 자율 시스템에 필수적인 3D 일관성 및 물리 정렬과 같은 고급 기준을 통해 차세대 세계 모델을 평가하도록 설계되었습니다.

비디오 합성을 위한 기본 생성 모델인 비디오LDM(VLDM)과 비교했을 때, Cosmos WFM은 샘슨 에러가 낮고 시간적 안정성이 뛰어나 기하학적 정확도가 우수합니다. 또한 벤치마크는 중력 및 충돌 역학과 같은 물리적 동작을 기반으로 WFM을 평가합니다.

Cosmos WFM은 시각적 일관성 측면에서 VLDM을 지속적으로 능가하며 최대 14배 높은 포즈 추정 성공률을 달성합니다. 디퓨전 모델은 기본적으로 더 높은 충실도를 제공하는 반면, 자동 회귀 모델은 커스텀 모델에 탁월한 성능을 제공합니다.

활용 사례

개발자들이 NVIDIA Cosmos를 사용하는 방법

로봇, 자율주행 차량, 비전 AI 등의 개발자가 Cosmos를 사용하여 업무를 발전시키는 방법을 알아보세요.

비디오

Cosmos는 개발자가 AI 모델 교육을 위해 맞춤형 데이터 세트를 구축하도록 돕습니다. 자율주행차의 눈이 덮인 도로 영상이든, 로봇 공학을 위한 바쁜 창고 장면이든, Cosmos는 공간 및 시간 패턴을 이해함으로써 비디오 태그 및 검색을 간소화하여 훈련 데이터 준비를 더 쉽게 합니다.

이를 통해 시간과 비용을 절감하고, 실제 사용에 매우 관련성이 높고 영향력 있는 AI 모델을 제공할 수 있습니다.

제어 가능한 3D-to-Real 합성 데이터

개발자는 3D 시뮬레이션 데이터를 활용하여 현실적인 합성 비디오를 생성할 수 있습니다. Omniverse를 사용하면 모델 교육 요구를 나타내는 3D 환경을 만들 수 있습니다. 다음으로, 고도로 맞춤형 합성 데이터 세트를 위해 3D 장면에 의해 정확하게 제어되는 현실적인 비디오를 생성할 수 있습니다.

정책 모델 교육 및 평가

행동 조건에 따른 비디오 예측을 위해 파인 튜닝된 Cosmos 세계 파운데이션 모델은 물리 AI 시스템에 대한 전략을 정의하고 상태를 행동에 매핑하는 정책 모델의 확장 가능하고 재현 가능한 훈련 및 평가를 가능하게 합니다. 개발자들은 이러한 모델을 사용하여 장애물 탐색 및 물체 조작과 같은 작업을 위해 위험한 실제 테스트 또는 복잡한 시뮬레이션에 대한 의존을 줄이고, 로봇 및 자율주행 차량과 같은 실제 애플리케이션에서 성능을 최적화하고 신뢰성을 보장합니다.

예측

Cosmos는 물리 AI에 고급 예측 지능을 제공하여 시스템이 미래 시나리오를 예측하고 더 현명한 결정을 내릴 수 있도록 지원합니다. 예측 생성을 통해, 과거 데이터와 텍스트 프롬프트를 기반으로 예측 비디오를 생성하는 Cosmos는 물리 AI이 최적의 행동을 선택하여 동적 환경에서 효율성, 적응성 및 안전성을 향상시킬 수 있도록 지원합니다.

Multiverse 시뮬레이션

NVIDIA Omniverse를 사용하여 개발자는 여러 Cosmos 결과를 시뮬레이션하여 실시간 시나리오를 평가하고 의사 결정을 가속화하고 로봇 및 자율주행 차량과 같은 AI 기반 시스템을 최적화할 수 있습니다. Cosmos와 Omniverse는 함께 물리 AI 모델이 모든 가능한 미래 결과를 탐구할 수 있도록 해주며, 복잡한 환경에서 향상된 정밀도와 신뢰성을 위한 최선의 경로를 선택할 수 있게 해준다.

에코시스템

선도적인 물리 AI를 채택한 혁신 기업

로봇, 자율주행차, 비전 AI 산업의 모델 개발자들은 Cosmos를 사용하여 물리 AI 개발을 가속화하고 있다.

다음 단계

시작할 준비가 되셨나요?

NVIDIA API 카탈로그에서 세계 파운데이션 모델을 테스트하거나 NVIDIA Cosmos를 사용하여 세계 모델을 구축하세요.

개인화된 모델 구축

NVIDIA NeMo는 모든 플랫폼에서 세계 모델을 큐레이팅, 토큰화, 파인 튜닝할 수 있는 엔드 투 엔드 파이프라인을 제공합니다.

World 모델을 위한 비디오 데이터 큐레이팅 시작

NVIDIA NeMo Curator를 통해 가속화된 데이터 처리 및 큐레이션 파이프라인을 구현하고 NVIDIA 데이터 센터 GPU에 최적화되었습니다.

자주 묻는 질문

물리 AI 개발자는 NGC 카탈로그Hugging Face에서 사용할 수있는 Cosmos 세계 파운데이션 모델을 이제 시작할 수 있습니다. Cosmos는 또한 NVIDIA NeMo로 파운데이션 모델을 파인 튜닝하기위한 엔드 투 엔드 파이프라인을 제공합니다. 개발자는 GitHub 및 Hugging Face에서 /NVIDIA/cosmos-tokenizer에서 Cosmos 토큰을 사용할 수 있습니다.

Cosmos 세계 파운데이션 모델은 모든 사용자가 NVIDIA 오픈 모델 라이센스를 사용할 수 있습니다.

네, Cosmos는 NeMo를 이용한 파인 튜닝 기능을 지원합니다. LoRA 및 RLHF (인간 피드백으로부터 강화 학습)와 같은 인기있는 기술을 사용하여 모델을 효율적으로 훈련하고 파인 튜닝할 수 있습니다. 또한 PyTorch를 선택하여 자신의 데이터 집합을 사용하여 WFM을 계속 교육할 수 있습니다.

예, Cosmos를 활용하여 원하는 파운데이션 모델 또는 모델 아키텍처로 처음부터 구축할 수 있습니다. 동영상 데이터 전처리를 위해 NeMo Curator를 사용하여 시작할 수 있습니다. 그런 다음 Cosmos 토큰라이저로 데이터를 압축 및 디코딩하고, 데이터를 처리한 후에는 NVIDIA NeMo를 사용하여 모델을 훈련하거나 파인 튜닝할 수 있습니다.

NIM 마이크로서비스를 사용하면 클라우드, 데이터센터 및 워크스테이션 전반의 애플리케이션에서 물리 AI 모델을 쉽게 통합할 수 있습니다.

또한 NVIDIA DGX 클라우드를 사용하여 AI 모델을 트레이닝하고 규모에 맞게 어디든 배포할 수 있습니다.

Cosmos와 Cosmos Nemotron은 모두 물리적 세계의 시각을 처리하고 해석하도록 설계된 NVIDIA 모델 제품군입니다.

Cosmos 모델은 물리 인식 비디오를 예측하고 생성하는 데 중점을 둔 세계 기반 모델로, 가상 환경의 미래 상태를 시뮬레이션하고 이해하는 데 도움을 줍니다. 이와는 대조적으로 Cosmos Nemotron 모델은 이미지와 비디오를 쿼리하고 요약하는 데 특화된 비전 언어 모델로, AI가 물리적 및 가상 시각 데이터를 모두 해석하고 대응할 수 있게 해줍니다.

이 두 모델은 시각적 이해에 기반한 고급 AI 기능을 구현하는 데 있어 서로를 보완합니다.