NVIDIA Tensor 코어

에이전틱 AI를 위한 전례 없는 가속화입니다.

Tensor 코어는 혼합 정밀도 컴퓨팅을 지원하며, 정확도를 유지하고 향상된 보안을 제공하면서 처리량을 가속화하도록 계산을 동적으로 조정할 수 있습니다. 최신 세대의 Tensor 코어는 광범위한 AI 및 고성능 컴퓨팅(HPC) 작업을 그 어느 때보다 빠르게 처리합니다. 수조 개의 매개변수를 갖는 AI 모델 학습부터 획기적인 추론 성능 달성에 이르기까지, NVIDIA Tensor 코어는 최신 AI 팩토리를 위한 모든 워크로드를 가속화합니다.

개요
NVIDIA Rubin
NVIDIA Blackwell
사양

개요
NVIDIA Rubin
NVIDIA Blackwell
사양

혁신적인 AI 훈련

16비트 정밀도로 수조 개의 매개변수를 가진 생성형 AI 모델을 학습하는 데는 수개월이 걸릴 수 있습니다. NVIDIA Tensor 코어는 4비트 포맷의 속도와 효율성, 그리고 16비트의 정밀도를 동시에 구현하는 혁신적인 NVFP4 포맷을 지원합니다. Transformer Engine의 지원을 받는 NVFP4는 마이크로 블록 스케일링을 활용하여 처리량을 크게 향상시키고 메모리 사용량을 줄입니다. CUDA-X™ 라이브러리를 통한 네이티브 프레임워크 지원을 바탕으로, 이 혁신은 차세대 Frontier 모델의 학습 후 수렴까지의 시간을 크게 단축합니다.

획기적인 추론

높은 처리량에서 낮은 지연 시간을 달성하고 활용도를 극대화하는 것은 안정적인 추론 배포를 위해 중요합니다. NVIDIA Rubin 플랫폼은 향상된 Transformer Engine을 특징으로 하며, 5세대 Tensor 코어를 통해 NVFP4 성능을 향상시킵니다. 동시에 정확성을 유지하면서 최대 50 petaFLOPS(PFLOPS)의 NVFP4 추론 성능을 구현할 수 있도록 합니다. NVIDIA Blackwell과 완전한 호환성을 갖춘 트랜스포머 엔진은 매끄러운 업그레이드를 보장하여, 기존에 최적화된 코드가 NVIDIA Rubin으로 손쉽게 이전되도록 합니다.

NVIDIA는 Tensor 코어를 통해 MLPerf 산업 전반의 추론용 벤치마크를 획득했습니다.

Advanced HPC

HPC는 현대 과학을 지탱하는 핵심 차세대 혁신을 실현하기 위해, 과학자들은 시뮬레이션을 통해 신약 개발을 위한 복잡한 분자 구조를 분석하고, 물리학을 활용해 새로운 에너지원을 발굴하며, 기상 데이터를 분석해 극한 기후에 대비하고 있습니다. NVIDIA Tensor 코어는 FP64 및 FP32를 포함한 다양한 정밀도를 제공하여, 필요한 최고 수준의 정확도로 과학 컴퓨팅을 가속화합니다.

HPC SDK는 NVIDIA 플랫폼용 HPC 애플리케이션 개발을 위한 필수 컴파일러, 라이브러리, 도구를 제공합니다.

NVIDIA Rubin Tensor 코어

향상된 5세대

NVIDIA Rubin 플랫폼은 향상된 5세대 Tensor 코어를 도입합니다. 현대 AI 팩토리를 가속화하도록 설계되었으며, 4비트 저정밀 NVFP4 및 FP8 연산에 대한 지원을 최적화합니다. NVIDIA Rubin의 스트리밍 멀티프로세서 내에서 확장된 특수 함수 유닛과 이러한 Tensor 코어를 긴밀하게 통합함으로써, 이 플랫폼은 어텐션 메커니즘과 희소 연산 경로를 크게 가속화하여 모델 정확성을 저하시키지 않으면서 산술 밀도와 에너지 효율성을 모두 향상시킵니다.

50 PFLOPS 트랜스포머 엔진
에뮬레이션

50 PFLOPS 트랜스포머 엔진

차세대 에이전틱 AI를 구동하는 NVIDIA Rubin GPU는 5세대 Tensor 코어와 NVFP4 정밀도를 활용해 추론 효율을 극대화하는 50 petaFLOPS Transformer Engine을 특징으로 합니다. 이러한 아키텍처의 도약은 NVIDIA Vera Rubin NVL72 시스템에서 NVFP4 추론 기준 최대 3,600 PFLOPS까지 원활하게 확장되며, 실시간 추론 모델에 필수적인 대규모 처리량을 제공합니다.

에뮬레이션

NVIDIA Blackwell 및 Rubin 아키텍처는 입력 값을 분해하고 고처리량의 저정밀 Tensor 코어를 활용하여 FP32 및 FP64 행렬 연산을 에뮬레이션할 수 있습니다. 이 접근 방식은 네이티브 IEEE754 정확도에 필적하거나 이를 능가하면서 성능과 에너지 효율을 크게 향상시킬 수 있습니다. 복잡한 소프트웨어 기반 알고리즘과 고정소수점 연산을 활용함으로써, 에뮬레이션은 기존의 고정밀 하드웨어 실행 방식에 대한 제어 가능하고 매우 효율적인 대안을 제공합니다.

NVIDIA Blackwell Tensor 코어

5세대

NVIDIA Blackwell 아키텍처는 GPT-MoE-1.8T와 같은 대규모 모델에서 이전 NVIDIA Hopper™ 세대 대비 30배의 성능 향상을 제공합니다. 이러한 성능 향상은 5세대 Tensor 코어를 통해 가능해집니다. NVIDIA Blackwell Tensor 코어는 커뮤니티 정의 마이크로스케일링 포맷을 포함한 새로운 정밀도를 추가하여, 더 높은 정밀도를 대처할 때 더 나은 정확도와 교체 용이성을 제공합니다.

NVIDIA Blackwell 아키텍처에 대해 자세히 알아보기

새로운 정밀도
트랜스포머 엔진

새로운 정밀도 형식

생성형 AI 모델의 규모와 복잡성이 급격히 증가함에 따라, 훈련과 추론 성능을 향상시키는 것이 중요합니다. 이러한 컴퓨팅 요구를 충족하기 위해 NVIDIA Blackwell Tensor 코어는 커뮤니티 정의 마이크로스케일링 포맷을 포함한 새로운 양자화 포맷과 정밀도를 지원합니다.

2세대 트랜스포머 엔진

2세대 Transformer Engine은 맞춤형 NVIDIA Blackwell Tensor Core 기술을 NVIDIA® TensorRT™-LLM 및 NeMo™ Framework의 혁신과 결합하여, 거대 언어 모델(LLM) 및 전문가 혼합(MoE) 모델의 추론과 학습을 가속화합니다. Transformer Engine은 Tensor 코어의 FP4 정밀도를 기반으로 구동되며, 현재 및 차세대 MoE 모델에서 높은 정확성을 유지하면서 성능과 효율성을 두 배로 향상시킵니다.

Transformer Engine은 실시간 성능을 바탕으로 오늘날의 LLM 대중화를 이끌고 있습니다. 엔터프라이즈는 저렴한 비용으로 최첨단 생성형 AI 모델을 배포하여 비즈니스 프로세스를 최적화할 수 있습니다.

가장 강력한 엔드 투 엔드 AI 및 HPC 데이터센터 플랫폼

Tensor 코어는 하드웨어, 네트워킹, 소프트웨어, 라이브러리는 물론 NVIDIA NGC™ 카탈로그의 최적화된 AI 모델 및 애플리케이션까지 통합된 NVIDIA 데이터 센터 솔루션의 핵심 구성 요소입니다. 연구원은 가장 강력한 엔드 투 엔드 AI 및 HPC 플랫폼을 통해 실제 결과를 제공하고 솔루션을 규모에 맞게 프로덕션에 배포할 수 있습니다.

	NVIDIA Rubin	NVIDIA Blackwell
지원되는 Tensor 코어 정밀도	NVFP4, FP64, TF32, BF16, FP16, FP8/FP6, INT8,	NVFP4, FP64, TF32, BF16, FP16, FP8/FP6, INT8,
지원되는 CUDA^® 코어 정밀도	FP64, FP32, INT32, FP16, BF16	FP64, FP32, FP16, BF16

*예비 사양은 변경될 수 있습니다.

NVIDIA Vera Rubin 플랫폼에 대해 자세히 알아보세요.

자세히 알아보기