NVIDIA Tensor 코어

생성형 AI를 위한 전례 없는 가속화

Tensor 코어는 혼합 정밀도 컴퓨팅을 지원해 정확도를 유지하고 향상된 보안을 제공하면서 처리량을 가속화하도록 계산을 동적으로 조정할 수 있습니다. 최신 세대의 Tensor 코어는 광범위한 AI 및 고성능 컴퓨팅(HPC) 작업을 그 어느 때보다 빠르게 처리합니다. NVIDIA Tensor 코어는 매개 변수가 1조 개인 생성형 AI 모델 훈련 속도 4배 개선부터 추론 성능 30배 향상에 이르기까지 최신 AI 팩토리의 모든 워크로드를 가속화합니다.

혁신적인 AI 훈련

16비트 부동 소수점(FP16) 정밀도로 매개 변수가 수조 개인 생성형 AI 모델을 훈련하는 데는 몇 달이 걸릴 수 있습니다. NVIDIA Tensor 코어는 트랜스포머 엔진, TF32(Tensor Float 32) 및 FP16에서 FP8 등의 감소된 정밀도로 한 차원 높은 성능을 제공합니다. CUDA-X™ 라이브러리를 통한 기본 프레임워크의 직접적인 지원 덕분에 구현이 자동으로 이루어져 정확도를 유지하면서 훈련에서 컨버전스까지의 시간을 크게 단축할 수 있습니다.

혁신적인 AI 추론 엔진

높은 처리량에서 낮은 지연 시간을 달성하는 동시에 활용도를 극대화하는 것은 추론을 안정적으로 배포하기 위한 가장 중요한 성능 요구 사항입니다. NVIDIA Blackwell 아키텍처의 Transformer 엔진은 뛰어난 성능을 제공할 뿐만 아니라 다양한 수조 개 파라미터 생성형 AI 모델을 가속화할 수 있는 다용도성을 갖추고 있습니다.

NVIDIA는 Tensor 코어를 통해 MLPerf 산업 전반의 추론용 벤치마크를 획득했습니다.

Advanced HPC

HPC는 현대 과학을 지탱하는 핵심 기반입니다. 차세대 발견을 앞당기기 위해 과학자들은 신약 개발을 위한 복합분자, 잠재적인 에너지원을 위한 물리학, 극한의 기후 패턴을 더 효율적으로 예측하고 대비하기 위한 대기 데이터를 더 잘 이해하기 위해 시뮬레이션을 사용합니다. NVIDIA Tensor 코어는 FP64를 포함하는 전체 범위의 정밀도를 제공하여, 작업에 요구되는 최고 정확도로 과학 컴퓨팅을 가속합니다.

HPC SDK는 NVIDIA 플랫폼용 HPC 애플리케이션 개발을 위한 필수 컴파일러, 라이브러리, 도구를 제공합니다.

NVIDIA Blackwell Tensor 코어

5세대

Blackwell 아키텍처는 GPT- MoE-1.8T와 같은 대규모 모델에 대해 이전 NVIDIA Hopper™ 세대 대비 30배의 속도 향상을 제공합니다.
MoE-1.8T. 이러한 성능 향상은 5세대 Tensor 코어를 통해 가능해졌습니다. Blackwell Tensor 코어는 새로운 정밀도를 추가합니다,
커뮤니티에서 정의한 마이크로 스케일링 형식을 포함하여 더 높은 정밀도를 위해 더 나은 정확도와 손쉬운 교체를 제공합니다.

새로운 정밀도 형식

생성형 AI 모델의 규모와 복잡성이 폭발적으로 증가함에 따라 학습 및 추론 성능을 개선하는 것이 매우 중요해졌습니다. 이러한 컴퓨팅 요구 사항을 충족하기 위해 Blackwell은 다음과 같이 지원합니다. Tensor 코어는 커뮤니티 정의 마이크로 스케일링 형식을 비롯한 새로운 양자화 형식과 정밀도를 지원합니다.

2세대 Transformer Engine

2세대 Transformer Engine은 맞춤형 Blackwell Tensor 코어를 사용합니다. 기술과 NVIDIA® TensorRT™-LLM 및 NeMo™ 프레임워크와 결합된 혁신을 통해 거대 언어 모델(LLM)의 추론 및 트레이닝을 가속화합니다. 및 전문가 혼합(MoE) 모델의 추론 및 훈련을 가속화합니다. Transformer Engine은 다음을 통해 구동됩니다. Tensor 코어의 FP4 정밀도를 기반으로 성능과 효율성을 두 배로 높이는 동시에 현재 및 차세대 MoE 모델에 대한 높은 정확도를 유지합니다.

Transformer Engine은 실시간 성능으로 오늘날의 LLM을 대중화하기 위해 노력합니다. 기업은 경제적인 비용으로 최첨단 생성형 AI 모델을 배포하여 비즈니스 프로세스를 최적화할 수 있습니다.

NVIDIA Hopper 아키텍처 Tensor 코어

4세대

Tensor 코어 기술 도입 이후 NVIDIA GPU는 최고 성능을 60배 향상하여 AI 및 HPC용 컴퓨팅 대중화의 동력을 제공했습니다. NVIDIA Hopper 아키텍처는 FP8을 사용하는 트랜스포머 엔진으로 4세대 Tensor 코어를 향상하여 FP16보다 6배 더 높은 성능으로 매개 변수가 1조 개인 모델을 훈련합니다. TF32, FP64, FP16 및 INT8 정밀도를 사용하는 3배 이상의 성능과 결합된 Hopper Tensor 코어는 모든 워크로드에 속도 향상을 제공합니다.

가장 강력한 엔드 투 엔드 AI 및 HPC 데이터센터 플랫폼

Tensor 코어는 NVIDIA NGC™ 카탈로그의 하드웨어, 네트워킹, 소프트웨어, 라이브러리, 최적화된 AI 모델 및 애플리케이션을 통합하는 완전한 NVIDIA 데이터센터 솔루션의 필수 구성 요소입니다.

연구원은 가장 강력한 엔드 투 엔드 AI 및 HPC 플랫폼을 통해 실제 결과를 제공하고 솔루션을 규모에 맞게 프로덕션에 배포할 수 있습니다.

Blackwell Hopper
지원되는 Tensor 코어 정밀도 FP64, TF32, BF16, FP16, FP8, INT8, FP6, FP4 FP64, TF32, BF16, FP16, FP8, INT8
지원되는 CUDA®코어 정밀도 FP64, FP32, FP16, BF16 FP64, FP32, FP16, BF16, INT8

*예비 사양은 변경될 수 있습니다.

NVIDIA Blackwell에 대해 자세히 알아보기.