월드 모델이란 무엇인가요?

월드 모델은 물리학과 공간 특성을 포함한 실제 세계의 역학을 이해하는 신경망입니다. 그들은 텍스트, 이미지, 비디오, 움직임을 포함한 입력 데이터를 사용하여 사실적인 물리적 환경을 시뮬레이션하는 비디오를 생성할 수 있습니다. 피지컬 AI 개발자는 월드 모델을 사용하여 로봇자율주행 차량 훈련을 위한 맞춤형 합성 데이터 또는 다운스트림 AI 모델을 생성합니다.

월드 모델은 어떻게 구축되나요?

자율주행 자동차와 같은 피지컬 AI 시스템을 위한 월드 모델 구축에는 다양한 지형과 조건의 비디오와 이미지가 포함된 광범위한 실제 데이터가 필요합니다. 이러한 데이터를 수집하려면 페타바이트의 정보와 수백만 시간의 시뮬레이션 영상이 필요하며, 필터링과 데이터 준비를 위해 수천 시간의 인력이 투입되어야 합니다. 수십억 개의 파라미터를 가진 신경망은 이 대규모 데이터세트를 분석하여 3D 환경의 내부 표현을 생성하고 업데이트하여 로봇이 동적 행동을 이해하고, 움직임과 깊이와 같은 변화를 예측하며, 잠재적인 이벤트에 대한 반응을 준비할 수 있도록 지원합니다. 딥 러닝을 통한 지속적인 개선을 통해 월드 모델은 새로운 시나리오에 적응하고 복잡한 물리적 상호작용을 이해할 수 있습니다. 이러한 대규모 모델을 훈련하는 데 수백만 달러의 GPU 컴퓨팅 리소스가 필요합니다. 

다음과 같은 다양한 유형의 월드 모델이 있을 수 있습니다.

  • 예측 모델 - 이러한 모델은 텍스트 프롬프트, 입력 영상 또는 두 이미지 간의 보간을 기반으로 월드 생성을 예측하고 연속 동작을 합성합니다. 이 모델은 사실적이고 시간적으로 일관된 장면 생성을 가능하게 하여, 영상 합성, 애니메이션, 로봇 모션 계획과 같은 응용 분야에서 유용하게 활용됩니다.
  • 스타일 전이 모델 – 이러한 모델은 ControlNet이라는 모델 네트워크를 사용하여, 분할 맵, 라이다 스캔, 깊이 맵, 엣지 감지 등과 같은 구조화된 지침을 기반으로 모델 생성 과정에 조건을 부여하고, 특정 입력에 따라 출력을 유도합니다. 또한 입력 지침을 시각적으로 반영함으로써 레이아웃과 움직임을 제어하면서도, 텍스트 프롬프트에 기반한 다양하고 사실적인 결과물을 생성할 수 있습니다. 이러한 특성은 디지털 트윈 시뮬레이션 및 환경 재구성과 같이 구조화된 이미지 또는 영상 합성이 필요한 응용 분야에 특히 유용합니다.
  • 추론 모델 – 이러한 모델은 다양한 형태의 입력을 받아 시간과 공간을 기반으로 분석합니다. 이 모델들은 강화 학습에 기반한 일련의 사고 추론 접근 방식을 사용하여 현재 상황을 이해하고 최적의 조치를 결정합니다. 이러한 모델을 통해 AI는 실제 데이터와 합성 데이터를 구별하고, 로봇을 위한 유용한 훈련 데이터를 선택하고, 로봇 동작 예측, 자율 시스템을 위한 물류 최적화와 같은 복잡한 작업을 처리할 수 있습니다.

NVIDIA Cosmos™ 모델과 같은 월드 파운데이션 모델(WFM)은 파운데이션 모델의 확장성과 일반화 요구 사항을 충족하는 특수 종류의 월드 모델입니다. 레이블이 지정되지 않은 대규모 데이터세트로 훈련된 이러한 뉴럴 네트워크는 광범위한 피지컬 AI 작업에 적합할 수 있습니다. 일반화 가능성 덕분에 개발자가 더 작은 작업별 데이터세트에 대한 사후 학습이 가능한 사전 훈련된 기본 모델 역할을 하여 다양한 피지컬 AI 애플리케이션의 개발을 크게 가속화할 수 있습니다. 

이러한 WFM을 통해 개발자는 생성형 AI를 2D 소프트웨어의 한계를 넘어 확장하고 실제 시험 실행의 필요성을 줄이는 동시에 그 기능을 실제 환경에 적용할 수 있습니다. AI의 역량은 전통적으로 디지털 영역에서 활용되어 왔지만, 월드 모델은 이를 실질적인 현실 세계 경험으로 확장시킬 수 있는 길을 엽니다. 

월드 모델 구축을 위한 핵심 구성 요소는 다음과 같습니다.

데이터 처리

데이터 큐레이션은 특히 대규모 다중 모달 데이터를 다루는 경우, 월드 모델의 사전 훈련과 지속적인 훈련에 매우 중요한 단계입니다. 여기에는 고정밀 모델을 훈련하거나 사후 훈련할 때 고품질을 보장하기 위해, 이미지 또는 영상 데이터의 필터링, 주석 추가, 분류, 중복 제거와 같은 처리 단계가 포함됩니다.

영상 처리에서 데이터 큐레이션은 비디오를 더 작은 세그먼트로 분할하여 트랜스코딩하는 것으로 시작되며, 이후 고품질 데이터를 유지하기 위한 품질 필터링이 수행됩니다. 최첨단 비전 언어 모델을 활용해 주요 객체나 동작에 주석을 달고, 영상 임베딩은 의미 기반 중복 제거를 통해 중복되는 데이터를 제거합니다.

그런 다음 데이터는 훈련을 위해 조직되고 정제됩니다. 이러한 프로세스 전반에서 효율적인 데이터 오케스트레이션은 GPU 간의 원활한 데이터 흐름을 보장하여 대규모 데이터를 처리하고 높은 처리량을 달성할 수 있도록 합니다.

데이터가 선별되면 개발자는 특정 테스트 사례를 위한 시나리오를 찾기 위해 데이터를 검색할 수 있어야 합니다. 이러한 데이터세트의 크기를 감안할 때, 이 프로세스는 건초 더미에서 바늘을 찾는 것과 같을 수 있습니다. 그러나 개발자는 월드 모델에서 훈련된 강력한 임베딩 모델을 사용하여 의미 검색을 빠르고 쉽게 수행하여 대상 시나리오를 검색하여 사후 훈련 주기를 수년에서 수일로 가속화할 수 있습니다.

토큰화

토큰화는 고차원의 시각적 데이터를 토큰이라는 더 작은 단위로 변환하여 머신 러닝 처리를 용이하게 합니다. 토크나이저는 이미지와 영상의 픽셀 중복을 의미 기반의 압축 토큰으로 변환하여, 대규모 생성 모델의 효율적인 훈련과 제한된 리소스에서의 추론을 가능하게 합니다. 두 가지 주요 방법이 있습니다.

  • 이산 토큰화: 이미지와 영상을 정수로 표현합니다.
  • 연속 토큰화: 이미지와 영상을 연속적인 벡터로 표현합니다.

이 접근 방식은 모델 학습 속도와 성능을 향상시킵니다.

사후 훈련 월드 모델

개발자는 처음부터 월드 모델 아키텍처를 훈련하거나, 추가 데이터를 사용해 다운스트림 작업을 위해 사전 훈련된 파운데이션 모델을 사후 훈련할 수 있습니다.

WFM은 물리적 환경을 시뮬레이션하기 위해 광범위한 시각적 데이터세트로 훈련된 범용 모델 역할을 합니다. 이러한 모델은 사후 훈련 프레임워크를 사용하여 로보틱스, 자율 시스템 및 기타 피지컬 AI 도메인의 정밀한 애플리케이션에 특화될 수 있습니다. 모델을 사후 훈련하는 방법에는 여러 가지가 있습니다.

  • 비감독 사후 훈련 – 레이블이 지정된 데이터를 사용하여 모델을 적응시키는 방식으로, 명시적인 레이블 없이 새로운 데이터세트에서 표현과 패턴을 학습할 수 있습니다. 이 방법은 광범위한 일반화와 도메인 적응에 유용합니다.
  • 감독 사후 훈련 – 레이블이 지정된 데이터세트를 활용하여 모델이 작업별 특징을 학습하도록 유도합니다. 이 접근 방식은 의사결정 능력을 개선하고, 구조화된 패턴 인식을 향상시켜, 궁극적으로 더 복잡한 AI 기반 애플리케이션을 위한 추론 역량을 개발합니다.

개발자는 간편한 시작과 전체 개발 프로세스 간소화를 위해, 데이터 준비, 모델 훈련, 최적화, 성능 평가 및 배포를 위한 라이브러리, SDK, 도구가 포함된 훈련 프레임워크를 활용할 수 있습니다.

강화 학습

추론 모델은 사전 훈련된 거대 언어 모델(LLM) 또는 대규모 비전 언어 모델을 사후 훈련하여 훈련됩니다. 또한 강화 학습을 활용하여 결정에 도달하기 전에 스스로를 분석하고 추론합니다.

강화 학습(RL)은 AI 에이전트가 환경과 상호작용하고 행동에 따라 보상 또는 패널티를 받아 학습하는 머신 러닝 접근 방식입니다. 시간이 지남에 따라 최상의 결과를 달성하기 위한 의사 결정을 최적화합니다.

RL은 월드 모델이 적응하고, 계획을 세우며, 정보에 입각한 결정을 내릴 수 있도록 지원하여 복잡한 작업을 추론해야 하는 로보틱스, 자율 시스템, AI 어시스턴트에 필수적인 요소가 되었습니다.

월드 모델의 이점은 무엇인가요?

월드 모델은 3차원 환경의 공간 관계와 물리적 행동에 대한 심층적인 이해를 통해 AI 기능을 확장합니다. 이를 통해 물체가 복잡한 장면에서 어떻게 움직이고 상호작용하는지 예측하는 것과 같은 사실적인 인과 결과 시나리오를 시뮬레이션할 수 있습니다.

개발자는 월드 모델의 성능을 활용하여 공장 로봇, 창고 자동화, 고속도로 또는 까다로운 지형에서 주행하는 자율주행 차량 등 산업 및 로보틱스 애플리케이션에서 AI 모델을 훈련하는 고품질 데이터를 생성할 수 있습니다. 피지컬 AI 시스템은 사실적인 시뮬레이션을 통한 학습을 위해 시각적, 공간적 및 물리적으로 정밀한 대규모 데이터가 필요합니다. 월드 모델은 수많은 애플리케이션을 위해 이러한 데이터를 대규모로 효율적으로 생성할 수 있습니다.

사실적인 영상 생성

월드 모델은 객체 움직임과 상호작용의 기본 원칙을 이해하여 보다 사실적이고 물리적으로 정확한 시각적 콘텐츠를 생성할 수 있습니다. 경우에 따라, 매우 정확한 월드 모델의 출력물이 합성 데이터의 형태로 제공되어 인식 AI 훈련에 활용될 수 있습니다.

현재의 AI 영상 생성은 복잡한 장면을 다루는 데 어려움을 겪을 수 있으며, 인과 관계에 대한 이해도 제한적입니다. 그러나 3D 시뮬레이션 플랫폼 및 소프트웨어와 결합된 월드 모델은 파편으로 덮인 산업용 로봇이 무거운 물체를 집어올리는 시뮬레이션과 같은 시각적 시나리오에서 원인과 결과에 대한 더 심층적인 이해를 보여줄 수 있는 잠재력을 보여주고 있습니다.

예측 지능

월드 모델은 피지컬 AI 시스템이 실제 행동을 시뮬레이션하고 결과를 예측하여 학습하고, 적응하며, 더 나은 결정을 내릴 수 있도록 지원합니다. 이를 통해 시스템은 다양한 시나리오를 ‘상상’하고, 동작을 테스트하며, 가상 피드백을 통해 학습할 수 있습니다. 이는 자율주행 자동차가 갑작스러운 장애물이나 악천 조건을 처리하기 위해 시뮬레이터에서 연습하는 것과 같은 것입니다. 가능한 결과를 예측함으로써, 오토노머스 머신은 실제 시험 없이도 더 스마트한 동작을 계획할 수 있어 시간을 절약하고 위험을 줄입니다.

거대 언어 모델(LLM)과 결합된 경우, 월드 모델은 AI가 자연어 명령을 이해하고 보다 효과적으로 상호작용하도록 지원합니다. 예를 들어, 배달 로봇은 "가장 빠른 경로를 찾기"라는 음성 요청을 해석하고 다양한 경로를 시뮬레이션하여 최적의 경로를 결정할 수 있습니다.

이러한 예측 인텔리전스는 피지컬 AI 모델을 더 효율적이고 적응력이 뛰어나며 안전하게 만들어, 로봇, 자율주행 자동차, 지능형 교통 시스템, 산업용 기계가 복잡한 실제 환경에서 더 스마트하게 작동할 수 있도록 지원합니다.

개선된 정책 학습

정책 학습은 가장 효과적인 행동을 찾기 위해 다양한 전략을 탐색하는 과정입니다. 정책 모델은 로봇과 같은 시스템이 현재 상태와 더 넓은 환경의 상태를 바탕으로 최적의 행동을 결정할 수 있도록 돕습니다. 시스템의 상태(예: 위치)를 동작(예: 움직임)과 연관시켜 목표를 달성하거나 성능을 개선합니다. 정책 모델은 모델의 사후 학습에서 도출될 수 있습니다. 정책 모델은 RL에서 흔히 사용되며, 상호작용과 피드백을 통해 학습합니다.

효율성, 정확도, 그리고 실현 가능성을 위한 최적화

추론 월드 모델을 사용하여 합성 데이터를 필터링하고 비평하여 품질과 관련성을 신속하게 개선하세요.

월드 모델은 전략 탐색을 가능하게 하여 가장 효과적인 결과에 대한 보상을 제공합니다. 보상 모듈을 추가하여 시뮬레이션을 실행하고 리소스 사용량을 추적하는 비용 모델을 구축하여, 실제 작업의 성능과 효율성을 동시에 높일 수 있습니다.

월드 모델의 실제 응용 분야는 무엇인가요?

월드 모델은 3D 시뮬레이터와 함께 활용될 때 가상 환경으로서 자율 시스템 학습을 보다 안전하게 간소화하고 확장하는 데 사용됩니다. 영상 데이터를 생성, 선별 및 인코딩하는 능력을 통해 개발자는 오토노머스 머신이 동적 환경을 감지하고 인지하며 상호작용하도록 더욱 효과적으로 훈련시킬 수 있습니다.

자율주행 자동차

월드 모델은 자율주행차(AV) 개발 과정의 모든 단계에 상당한 이점을 제공합니다. 개발자는 사전 레이블이 지정되고 인코딩된 영상 데이터를 사용하여, AV 스택이 차량, 보행자, 사물의 동작을 보다 정확하게 인식할 수 있도록 구성하고 훈련할 수 있습니다. 이러한 모델은 텍스트 및 시각적 입력을 기반으로 예측 영상 시뮬레이션을 생성하고 다양한 교통 패턴, 도로 상황, 날씨, 조명과 같은 새로운 시나리오를 생성하여 차량을 구동하는 추론 비전 언어 동작 모델을 사후 훈련하고 테스트와 검증을 가속화할 수 있습니다.

로보틱스

월드 모델은 사실적인 합성 데이터와 예측 월드 상태를 생성하여 로봇이 공간 지능을 개발할 수 있도록 지원합니다. 피지컬 시뮬레이터 기반의 가상 시뮬레이션을 활용해, 이러한 모델은 로봇이 작업을 안전하고 효율적으로 연습하도록 하고, 빠른 테스트와 훈련을 통해 학습을 가속화합니다. 또한 다양한 데이터와 경험을 바탕으로 학습하여 로봇이 새로운 상황에 적응할 수 있도록 지원합니다.

수정된 월드 모델은 객체 상호작용을 시뮬레이션하고, 인간 행동을 예측하며, 로봇이 목표에 정확하게 도달하도록 안내하여 계획을 더욱 효과적으로 만듭니다. 또한 여러 시뮬레이션을 수행하고 피드백을 통해 학습하여 의사 결정 능력을 향상합니다. 가상 시뮬레이션을 통해 개발자는 실제 환경에서의 테스트 위험을 줄이고, 시간, 비용 및 리소스를 절감할 수 있습니다.

영상 분석

풍부한 멀티모달 데이터와 고급 추론 기능으로 훈련된 월드 모델은 대량의 녹화 및 라이브 영상에 대해 복잡한 영상 분석을 수행할 수 있습니다. 이러한 모델은 자연어 Q&A, 자동화된 요약, 물체 감지, 이벤트 현지화, 영상 내 시각 콘텐츠에 대한 보다 풍부한 상황별 이해를 가능하게 하여 기존 컴퓨터 비전 방법을 능가하는 기능을 제공합니다. 또한 월드 모델은 모퉁이 사례에 대한 사실적인 합성 데이터를 생성하여 중대한 사고를 감지하기 위한 AI 모델을 더 잘 훈련하는 데 도움이 됩니다.

영상 분석을 위한 월드 모델의 일반적인 애플리케이션은 산업 및 스마트 시티 환경에서 안전성과 운영 효율성을 개선하기 위해 발견됩니다. 예시로는 산업 안전을 위한 부상 위험과 위험한 행동 식별, 신속한 사고 조사를 위한 상세한 원인과 결과 분석, 스마트 시티에서 교통, 군중 흐름, 공공 안전 사건, 환경 위험 모니터링, 그리고 품질 관리를 위해 제조 라인의 결함과 이상을 시각적으로 식별하는 작업 등이 있습니다.

월드 모델을 시작하는 방법 안내

NVIDIA Cosmos

Cosmos는 피지컬 AI 시스템의 개발을 가속화하기 위해 특별히 설계된 최첨단 생성형 WFM, 고급 토크나이저, 가드레일, 그리고 가속화된 데이터 처리 및 큐레이션 파이프라인으로 구성된 플랫폼입니다.

Cosmos 월드 파운데이션 모델

Cosmos WFM은 피지컬 AI 개발을 위한 물리 인식 영상과 월드 상태를 생성하기 위해 특별히 설계된 사전 훈련된 모델 제품군입니다.

NVIDIA Isaac GR00T

Isaac GR00T는 휴머노이드 로보틱스를 가속화하도록 설계된 적극적인 연구 이니셔티브이자 개발 플랫폼입니다. 여기에는 로봇 파운데이션 모델, 워크플로우 및 시뮬레이션 도구 모음이 포함됩니다.