차세대 AI의 시대를 열다
개요
NVIDIA Rubin 플랫폼은 에이전틱 AI 및 고도의 추론 시대를 위해 구축되었으며, 복잡한 다단계 문제 해결과 대규모 롱 컨텍스트 워크플로우를 완벽하게 처리할 수 있도록 설계되었습니다. NVIDIA Rubin 플랫폼은 통신 및 메모리 병목 현상을 제거해 추론 성능을 극대화함으로써, Blackwell 대비 와트당 토큰 처리량은 높이고 토큰당 비용은 낮추었습니다.
Rubin 플랫폼은 하드웨어 가속 적응형 압축을 갖춘 새로운 트랜스포머 엔진을 탑재하여, 정확도를 유지하면서도 NVFP4 성능을 향상시켜 최대 50페타플롭스의 NVFP4 추론을 구현합니다. NVIDIA Blackwell과의 완전한 호환성을 바탕으로, 기존 최적화 코드를 Rubin 플랫폼으로 손쉽게 이전할 수 있는 원활한 업그레이드 환경을 보장합니다.
3세대 NVIDIA 컨피덴셜 컴퓨팅은 NVIDIA Vera Rubin NVL72를 통해 보안 기능을 풀랙 스케일로 확장합니다. 이 플랫폼은 36개의 NVIDIA Vera CPU, 72개의 NVIDIA Rubin GPU, 그리고 이를 원활하게 연결하는 NVIDIA NVLink™ 패브릭 전반에 걸쳐 통합된 신뢰 실행 환경을 조성합니다. 이 플랫폼은 CPU, GPU, NVLink 도메인 전반에 걸쳐 데이터 보안을 유지합니다. 규정 준수에 대한 암호학적 증명을 제공하는 어테스테이션 서비스를 통해, 대규모 확장성과 타협 없는 보호 기술을 결합하여 세계 최대 규모의 독점 모델, 학습 데이터 및 추론 워크로드를 보호합니다.
6세대 NVLink는 72개의 NVIDIA Rubin GPU를 단일 성능 도메인으로 통합하는 NVIDIA의 고속 GPU 상호 연결 패브릭의 획기적인 성능 향상을 제공합니다. NVIDIA Blackwell의 성능을 두 배로 향상시킨 Rubin은 GPU당 3.6TB/s의 대역폭과 260TB/s의 저지연 연결성을 제공하여 더 빠른 통신을 가능하게 합니다. 집단 통신 시 네트워크 혼잡을 최대 50%까지 줄여주는 NVIDIA® SHARP™(계층적 집계 및 축소 프로토콜)과 결합된 이 차세대 인터커넥트는, 세계 최대 규모 모델의 학습 및 추론을 대규모 환경에서도 성능 저하 없이 가속화합니다.
NVIDIA Rubin 플랫폼은 첨단 안정성 기능을 갖춘 랙 스케일 복원력을 제공합니다. NVIDIA Rubin GPU는 가동 중단 시간 없는 사전 예방 유지 관리와 실시간 상태 점검을 위한 전용 2세대 RAS 엔진을 갖추고 있으며, NVIDIA Vera CPU는 SOCAMM LPDDR5X와 CPU 코어에 대한 인시스템 테스트를 통해 향상된 서비스 성능을 제공합니다. 이 랙은 NVIDIA Blackwell 대비 18배 빠른 조립과 서비스 성능을 위한 케이블 없는 모듈형 트레이 설계를 도입하였으며, 지능형 회복 탄력성과 소프트웨어 정의 NVLink 라우팅을 결합하여 중단 없는 운영을 보장하고 유지보수 오버헤드를 줄여줍니다.
NVIDIA Vera CPU는 가속 시스템 전반의 데이터 이동과 에이전틱 추론을 위해 설계되었으며, 컨피덴셜 컴퓨팅을 완벽하게 지원합니다. NVIDIA GPU와 원활하게 연동되거나, 분석, 클라우드, 오케스트레이션, 스토리지 및 고성능 컴퓨팅(HPC) 워크로드에 대해 독립적으로 작동합니다. Vera는 NVIDIA가 설계한 88개의 코어, 최대 1.2TB/s의 LPDDR5X 메모리 대역폭, NVIDIA Scalable Coherency Fabric을 결합하여, 완벽한 Arm® 호환성을 바탕으로 데이터 및 메모리 집약적인 워크로드에 예측 가능하고 에너지 효율적인 성능을 제공합니다. 통합 NVLink-C2C 연결성은 고대역폭의 일관된 CPU-GPU 메모리 액세스를 가능하게 하여, 시스템 활용률과 효율성을 극대화합니다.
본 기술 심층 분석 보고서를 통해 NVIDIA Vera Rubin이 칩 단위가 아닌 데이터 센터 전체를 하나의 컴퓨팅 단위로 다루는 방식을 확인해 보시기 바랍니다. 이를 통해 대규모 지능형 서비스를 효율적이고 안전하며 예측 가능한 방식으로 구현하는 새로운 토대를 마련할 수 있습니다.