월드 파운데이션 모델

월드 파운데이션 모델(WFM)은 실제 환경을 영상으로 시뮬레이션하고 텍스트, 이미지, 비디오 입력을 기반으로 정확한 결과를 예측하는 신경망입니다. 피지컬 AI 개발자는 WFM을 활용해 로봇자율주행차 학습을 위한 맞춤형 합성 데이터나 다운스트림 AI 모델을 생성합니다.

월드 모델이란 무엇인가요?

월드 모델은 물리와 공간적 특성을 포함한 현실 세계의 역학을 이해하는 생성형 AI 모델입니다. 이 모델은 텍스트, 이미지, 영상, 움직임 등을 포함한 입력 데이터를 사용하여 시각적 콘텐츠를 생성합니다. 또한 감지 데이터를 통해 움직임, 힘, 공간 관계와 같은 역학을 표현하고 예측하는 법을 학습함으로써, 실제 환경의 물리적 특성을 이해합니다.

생성형 파운데이션 모델

파운데이션 모델은 레이블이 지정되지 않은 대규모 데이터세트로 훈련되어 입력 데이터를 기반으로 새로운 데이터를 생성하는 AI 신경망입니다. 일반화 능력이 뛰어나 광범위한 생성형 AI 애플리케이션의 개발을 크게 가속화할 수 있습니다.  개발자는 이러한 사전 훈련된 모델을 더 작고 작업별로 특화된 데이터세트로 파인튜닝(Fine-tuning)하여, 특정 도메인에 최적화된 맞춤형 모델을 구현할 수 있습니다.

개발자는 파운데이션 모델의 강력한 성능을 활용하여 공장 로봇, 창고 자동화, 고속도로나 까다로운 지형에서 작동하는 자율주행차와 같은 산업 및 로보틱스 애플리케이션에서 AI 모델을 훈련하기 위한 고품질 데이터를 생성할 수 있습니다. 피지컬 AI 시스템은 사실적인 시뮬레이션을 통한 학습을 위해 시각적, 공간적 및 물리적으로 정밀한 대규모 데이터가 필요합니다. 월드 파운데이션 모델은 이러한 데이터를 대규모로 효율적으로 생성합니다.

다음과 같은 다양한 유형의 WFM이 있을 수 있습니다.

  • 예측 모델 – 이러한 모델은 텍스트 프롬프트, 입력 영상 또는 두 이미지 간의 보간을 기반으로 월드 생성을 예측하고 연속 동작을 합성합니다. 이 모델은 사실적이고 시간적으로 일관된 장면 생성을 가능하게 하여, 영상 합성, 애니메이션, 로봇 모션 계획과 같은 응용 분야에서 유용하게 활용됩니다.
  • 스타일 전이 모델 – 이러한 모델은 ControlNet이라는 모델 네트워크를 사용하여, 분할 맵, 라이다 스캔, 깊이 맵, 엣지 감지 등과 같은 구조화된 지침을 기반으로 모델 생성 과정에 조건을 부여하고, 특정 입력에 따라 출력을 유도합니다. 또한 입력 지침을 시각적으로 반영함으로써 레이아웃과 움직임을 제어하면서도, 텍스트 프롬프트에 기반한 다양하고 사실적인 결과물을 생성할 수 있습니다. 이러한 특성은 디지털 트윈 시뮬레이션 및 환경 재구성과 같이 구조화된 이미지 또는 영상 합성이 필요한 응용 분야에 특히 유용합니다.
  • 추론 모델 – 이러한 모델은 다양한 형태의 입력을 받아 시간과 공간을 기반으로 분석합니다. 이 모델들은 강화 학습에 기반한 일련의 사고 추론 접근 방식을 사용하여 현재 상황을 이해하고 최적의 조치를 결정합니다. 이러한 모델을 통해 AI는 실제 데이터와 합성 데이터를 구별하고, 로봇 또는 게임을 위한 유용한 훈련 데이터를 선택하고, 로봇 동작 예측, 자율 시스템을 위한 물류 최적화와 같은 복잡한 작업을 해결할 수 있습니다.

월드 파운데이션 모델의 실제 활용 분야는 무엇일까요?

월드 모델은 3D 시뮬레이터와 함께 활용될 때 가상 환경으로서 자율 시스템 학습을 보다 안전하게 간소화하고 확장하는 데 사용됩니다. 영상 데이터를 생성, 선별 및 인코딩하는 능력을 통해 개발자는 오토노머스 머신이 동적 환경을 감지하고 인지하며 상호작용하도록 더욱 효과적으로 훈련시킬 수 있습니다.

자율주행차

WFM은 자율주행차(AV) 개발 과정의 모든 단계에 상당한 이점을 제공합니다. 개발자는 사전 레이블이 지정되고 인코딩된 영상 데이터를 사용하여, AV 스택이 차량, 보행자, 사물의 동작을 보다 정확하게 인식할 수 있도록 구성하고 훈련할 수 있습니다. 이러한 모델은 다양한 교통 패턴, 도로 상황, 날씨, 조명과 같은 새로운 시나리오를 생성하여 훈련 공백을 메우고 테스트 범위를 확장할 수도 있습니다. 또한 텍스트 및 시각적 입력에 기초하여 예측 영상 시뮬레이션을 생성하여 가상 훈련과 테스트를 가속화할 수 있습니다.

로보틱스

WFM은 사실적인 합성 데이터와 예측 기반 월드 상태를 생성하여 로봇의 공간 지능 개발을 지원합니다. 피지컬 시뮬레이터 기반의 가상 시뮬레이션을 활용해, 이러한 모델은 로봇이 작업을 안전하고 효율적으로 연습하도록 하고, 빠른 테스트와 훈련을 통해 학습을 가속화합니다. 또한 다양한 데이터와 경험을 바탕으로 학습하여 로봇이 새로운 상황에 적응할 수 있도록 지원합니다.

수정된 월드 모델은 객체 상호작용을 시뮬레이션하고, 인간 행동을 예측하며, 로봇이 목표에 정확하게 도달하도록 안내하여 계획을 더욱 효과적으로 만듭니다. 또한 여러 시뮬레이션을 수행하고 피드백을 통해 학습하여 의사 결정 능력을 향상합니다. 가상 시뮬레이션을 통해 개발자는 실제 환경에서의 테스트 위험을 줄이고, 시간, 비용 및 리소스를 절감할 수 있습니다.

영상 분석

풍부한 멀티모달 데이터와 고급 추론 기능으로 훈련된 WFM은 방대한 양의 녹화 및 라이브 영상에 대해 복잡한 영상 분석을 수행할 수 있습니다. 이러한 모델은 자연어 Q&A, 자동화된 요약, 물체 감지, 이벤트 현지화, 영상 내 시각 콘텐츠에 대한 보다 풍부한 상황별 이해를 가능하게 하여 기존 컴퓨터 비전 방법을 능가하는 기능을 제공합니다.

영상 분석을 위한 WFM의 일반적인 애플리케이션은 산업 및 스마트 시티 환경에서 안전과 운영 효율성을 개선하기 위해 사용됩니다. 예시로는 산업 안전을 위한 부상 위험과 위험한 행동 식별, 신속한 사고 조사를 위한 상세한 원인과 결과 분석, 스마트 시티에서 교통, 군중 흐름, 공공 안전 사건, 환경 위험 모니터링, 그리고 품질 관리를 위해 제조 라인의 결함과 이상을 시각적으로 식별하는 작업 등이 있습니다.

월드 파운데이션 모델의 이점은 무엇인가요?

자율주행 자동차와 같은 피지컬 AI 시스템을 위한 월드 모델 구축은 많은 자원과 시간이 소요됩니다. 첫째, 전 세계의 다양한 지형과 조건에서 실제 데이터세트를 수집하려면 페타바이트급 규모의 데이터와 수백만 시간의 시뮬레이션 영상이 필요합니다. 둘째, 이러한 데이터를 필터링하고 준비하려면 수천 시간에 달하는 인력이 투입되어야 합니다. 마지막으로, 이러한 대규모 모델을 훈련하는 데는 수백만 달러의 GPU 컴퓨팅 비용이 소요되며, 수많은 GPU가 필요합니다.

WFM은 세계의 근본적인 구조와 동적 특성을 파악하여 보다 정교한 추론 및 계획 능력을 구현하는 것을 목표로 합니다. 방대한 양의 선별된 고품질 실제 데이터로 훈련된 이러한 신경망은 피지컬 AI 시스템을 위한 시각적, 공간적, 물리적 인식 능력을 갖춘 합성 데이터 생성기로서의 역할을 합니다.

WFM을 통해 개발자는 생성형 AI를 2D 소프트웨어의 한계를 넘어 실제 세계로 확장할 수 있으며, 이 과정에서 실제 환경에서의 테스트 필요성을 줄입니다. AI의 역량은 전통적으로 디지털 영역에서 활용되어 왔지만, 월드 모델은 이를 실질적인 현실 세계 경험으로 확장시킬 수 있는 길을 엽니다.

사실적인 영상 생성

월드 모델은 객체 움직임과 상호작용의 기본 원칙을 이해하여 보다 사실적이고 물리적으로 정확한 시각적 콘텐츠를 생성할 수 있습니다. 이러한 모델은 비디오 게임 및 인터랙티브 경험을 포함한 다양한 활용 사례를 위해, 요청 시 사실적인 3D 세계를 생성할 수 있습니다. 경우에 따라, 매우 정확한 월드 모델의 출력물이 합성 데이터의 형태로 제공되어 인식 AI 훈련에 활용될 수 있습니다.

현재의 AI 영상 생성은 복잡한 장면에서 어려움을 겪을 수 있으며, 인과 관계에 대한 이해가 제한적입니다. 그러나 3D 시뮬레이션 플랫폼 및 소프트웨어와 결합된 월드 모델은 캔버스에 화가가 캔버스에 붓 자국을 남기는 장면과 같은 시각적 시나리오에서 인과 관계에 대한 더욱 심층적인 이해를 보여줄 잠재력을 지니고 있습니다.

예측 지능

WFM은 피지컬 AI 시스템이 실제 세계의 동작을 시뮬레이션하고 결과를 예측하여 학습하고, 적응하며, 더 나은 의사 결정을 내릴 수 있도록 지원합니다. 이러한 기술을 통해 시스템은 다양한 시나리오를 '상상'하고, 동작을 테스트하며, 가상 피드백을 통해 학습할 수 있습니다. 이는 마치 자율주행 자동차가 갑작스러운 장애물이나 악천후에 대비하기 위해 시뮬레이션 안에서 연습하는 것과 유사합니다. 가능한 결과를 예측함으로써, 오토노머스 머신은 실제 시험 없이도 더 스마트한 동작을 계획할 수 있어 시간을 절약하고 위험을 줄입니다.

거대 언어 모델(LLM)과 결합된 경우, 월드 모델은 AI가 자연어 명령을 이해하고 보다 효과적으로 상호작용하도록 지원합니다. 예를 들어, 배달 로봇은 "가장 빠른 경로를 찾아줘"라는 음성 요청을 해석하고 다양한 경로를 시뮬레이션하여 최상의 경로를 결정할 수 있습니다.

이러한 예측 지능은 피지컬 AI 모델을 더욱 효율적이고 유연하며 안전하게 만들어, 로봇, 자율주행 차량, 산업용 기계가 복잡한 실제 환경에서도 보다 스마트하게 작동할 수 있도록 지원합니다.

개선된 정책 학습

정책 학습은 가장 효과적인 행동을 찾기 위해 다양한 전략을 탐색하는 과정입니다. 정책 모델은 로봇과 같은 시스템이 현재 상태와 더 넓은 환경의 상태를 바탕으로 최적의 행동을 결정할 수 있도록 돕습니다. 시스템의 상태(예: 위치)를 동작(예: 움직임)과 연관시켜 목표를 달성하거나 성능을 개선합니다. 정책 모델은 모델을 파인튜닝하여 도출될 수 있습니다. 정책 모델은 상호작용과 피드백을 통해 학습하는 강화 학습 분야에서 일반적으로 사용됩니다.

효율성, 정확도, 그리고 실현 가능성을 위한 최적화

추론 WFM을 사용하여 합성 데이터를 필터링하고 평가함으로써, 품질과 적합성을 빠르게 향상시킵니다.

월드 모델은 전략 탐색을 가능하게 하여 가장 효과적인 결과에 대한 보상을 제공합니다. 보상 모듈을 추가하여 시뮬레이션을 실행하고 리소스 사용량을 추적하는 비용 모델을 구축하여, 실제 작업의 성능과 효율성을 동시에 높일 수 있습니다.

월드 모델은 어떻게 구축되나요?

월드 모델이 3D 환경에서 동적 행동을 학습하려면 영상과 이미지를 포함하는 방대한 실제 데이터가 필요합니다. 수십억 개의 파라미터를 가진 신경망은 이러한 데이터를 분석하여 환경의 숨겨진 상태 또는 내부 표현을 생성하고 업데이트합니다. 이를 통해 로봇은 영상에서 움직임과 깊이를 인지하고, 가려진 객체를 예측하며, 발생 가능한 사건에 반응할 수 있도록 준비하는 등 변화에 대한 이해와 예측이 가능해집니다. 딥 러닝을 통한 숨겨진 상태의 지속적인 개선은 월드 모델이 새로운 시나리오에 적응할 수 있도록 지원합니다.

월드 모델 구축을 위한 핵심 구성 요소는 다음과 같습니다.

데이터 큐레이션

데이터 큐레이션은 특히 대규모 다중 모달 데이터를 다루는 경우, 월드 모델의 사전 훈련과 지속적인 훈련에 매우 중요한 단계입니다. 여기에는 고정밀 모델을 훈련하거나 파인튜닝할 때 고품질을 보장하기 위해, 이미지 또는 영상 데이터를 대상으로 한 필터링, 주석, 분류, 중복 제거 등의 처리 단계가 포함됩니다.

영상 처리에서 데이터 큐레이션은 비디오를 더 작은 세그먼트로 분할하여 트랜스코딩하는 것으로 시작되며, 이후 고품질 데이터를 유지하기 위한 품질 필터링이 수행됩니다. 최첨단 비전 언어 모델을 활용해 주요 객체나 동작에 주석을 달고, 영상 임베딩은 의미 기반 중복 제거를 통해 중복되는 데이터를 제거합니다.

그런 다음 데이터는 훈련을 위해 조직되고 정제됩니다. 이러한 프로세스 전반에서 효율적인 데이터 오케스트레이션은 GPU 간의 원활한 데이터 흐름을 보장하여 대규모 데이터를 처리하고 높은 처리량을 달성하도록 합니다.

토큰화

토큰화는 고차원의 시각적 데이터를 토큰이라는 더 작은 단위로 변환하여 머신 러닝 처리를 용이하게 합니다. 토크나이저는 이미지와 영상의 픽셀 중복을 의미 기반의 압축 토큰으로 변환하여, 대규모 생성 모델의 효율적인 훈련과 제한된 리소스에서의 추론을 가능하게 합니다. 두 가지 주요 방법이 있습니다.

  • 이산 토큰화: 이미지와 영상을 정수로 표현합니다.
  • 연속 토큰화: 이미지와 영상을 연속적인 벡터로 표현합니다.

이 접근 방식은 모델 학습 속도와 성능을 향상시킵니다.

월드 파운데이션 모델 파인튜닝

파운데이션 모델은 다양한 생성형 작업을 수행할 수 있도록 레이블이 없는 방대한 데이터세트로 훈련된 AI 신경망입니다. 개발자는 추가 데이터를 사용해 모델 아키텍처를 처음부터 훈련하거나, 사전 훈련된 파운데이션 모델을 다운스트림 작업에 맞춰 Fine-tuning할 수 있습니다.

WFM은 물리적 환경을 시뮬레이션하기 위해 광범위한 시각적 데이터세트로 훈련된 범용 모델 역할을 합니다. 이러한 모델은 파인튜닝 프레임워크를 활용하여 로보틱스, 자율 시스템을 비롯한 기타 피지컬 AI 분야의 정밀한 응용 분야에 맞게 특화될 수 있습니다. 모델을 파인튜닝하는 방법에는 여러 가지가 있습니다. 

  • 비지도 파인튜닝 – 레이블이 지정되지 않은 데이터를 사용하여 모델을 적응시키는 방식으로, 명시적인 레이블 없이 새로운 데이터세트에서 표현과 패턴을 학습할 수 있습니다. 이 방법은 광범위한 일반화와 도메인 적응에 유용합니다.
  • 비지도 파인튜닝 – 레이블이 지정된 데이터세트를 활용하여 모델이 작업별 특징을 명확하게 학습하도록 유도합니다. 이 접근 방식은 의사결정 능력을 개선하고, 구조화된 패턴 인식을 향상시켜, 궁극적으로 더 복잡한 AI 기반 애플리케이션을 위한 추론 역량을 개발합니다.

개발자는 간편한 시작과 전체 개발 프로세스 간소화를 위해, 데이터 준비, 모델 훈련, 최적화, 성능 평가 및 배포를 위한 라이브러리, SDK, 도구가 포함된 훈련 프레임워크를 활용할 수 있습니다.

강화 학습

추론 모델은 사전 훈련된 거대 언어 모델(LLM) 또는 대규모 비전 언어 모델을 파인튜닝하여 훈련됩니다. 또한 강화 학습을 활용하여 결정에 도달하기 전에 스스로를 분석하고 추론합니다. 

강화 학습(RL)은 AI 에이전트가 환경과 상호작용하고 행동에 따라 보상 또는 패널티를 받으며 학습하는 머신 러닝 접근 방식입니다. 시간이 지남에 따라 최상의 결과를 달성하기 위한 의사 결정을 최적화합니다.

강화 학습은 WFM이 적응하고, 계획을 수립하며, 정보에 기반한 의사결정을 내릴 수 있도록 지원합니다. 이는 복잡한 작업을 통해 추론해야 하는 로보틱스, 자율 시스템, AI 어시스턴트에 필수적인 요소입니다.

여기에서 강화 학습에 대해 자세히 알아보세요.

월드 파운데이션 모델을 시작하는 방법

NVIDIA Cosmos

NVIDIA Cosmos™는 최첨단 생성형 월드 파운데이션 모델, 고급 토크나이저, 가드레일, 가속 데이터 처리 및 큐레이션 파이프라인으로 구성된 플랫폼으로서, 자율주행 자동차(AV), 로봇과 같은 피지컬 AI 시스템의 개발을 가속화하기 위해 구축되었습니다.

Cosmos 월드 파운데이션 모델

Cosmos 월드 파운데이션 모델은 물리 인식 영상 및 월드 상태를 생성하기 위해 특별히 설계된 사전 훈련된 모델 제품군으로, 피지컬 AI 개발에 활용됩니다.

NVIDIA Isaac GR00T

NVIDIA Isaac™ GR00T는 휴머노이드 로보틱스를 가속화하기 위해 설계된 적극적인 연구 이니셔티브이자 개발 플랫폼입니다. 여기에는 로봇 파운데이션 모델, 워크플로우 및 시뮬레이션 도구 모음이 포함됩니다.