NVIDIA Tensor 코어

HPC 및 AI를 위한 전례 없는 가속화

Tensor Cores는 혼합 정밀도 컴퓨팅을 지원해 정확도를 유지하면서 처리량을 가속화할 수 있도록 계산을 동적으로 조정합니다. 최신 세대는 이러한 가속을 전체 워크로드 범위로 확장합니다. 새로운 혁신적 정밀도인 Tensor Float 32(TF32)를 통한 AI 트레이닝의 10배 가속에서 FP64를 통한 고성능 컴퓨팅(HPC)의 2.5배 향상까지 NVIDIA Tensor 코어는 모든 워크로드에 새로운 성능을 선사합니다.

혁신적인 딥 러닝 트레이닝

혁신적인 딥 러닝 트레이닝

AI 모델은 정확한 대화형 AI 및 딥 추천자 시스템과 같은 새로운 수준의 도전 과제를 수행함에 따라 복잡성이 계속 폭발적으로 증가하고 있습니다. Megatron과 같은 기존의 대화형 AI 모델은 ResNet-50과 같은 이미지 분류 모델보다 수백 배 더 크고 복잡합니다. 이렇게 방대한 모델을 FP32 정밀도로 트레이닝하려면 며칠에서 몇 주까지 걸릴 수 있습니다. NVIDIA GPU의 Tensor Cores는 TF32 및 FP16 등의 감소된 정밀도로 중요도 순으로 더 높은 성능을 제공합니다. 또한 NVIDIA CUDA-X 라이브러리를 통해 기본 프레임워크를 직접 지원하면, 구현이 자동으로 이루어져, 정확도를 유지하면서 트레이닝에서 컨버전스까지 소요되는 시간을 대폭 단축할 수 있습니다.

NVIDIA는 Tensor 코어를 통해 최초의 AI 산업 전반 트레이닝용 벤치마크 인 MLPerf 0.6을 획득했습니다.

획기적인 딥 러닝 추론

획기적인 딥 러닝 추론

뛰어난 AI 추론 가속기는 탁월한 성능뿐만 아니라 다양한 뉴럴 네트워크를 가속하는 다용성과 함께 개발자가 새 네트워크를 구축할 수 있는 프로그래밍 가능성도 제공할 수 있어야 합니다. 높은 수준의 처리량을 짧은 지연 시간으로 처리함과 동시에 활용률을 극대화하는 것이 추론을 안정적으로 배포하는 데 있어서 가장 중요한 성능 요구 사항입니다. NVIDIA Tensor 코어는 TF32, bfloat16, FP16, INT8, INT4와 같은 전체 범위 정밀도를 제공하므로 그 다용성과 성능이 타의 추종을 불허합니다.

Tensor 코어를 통해 NVIDIA는 최초의 AI 산업 전반 추론용 벤치마크 인 MLPerf Inference 0.5를 획득했습니다.

고급 고성능 컴퓨팅

고급 고성능 컴퓨팅

HPC는 현대 과학을 지탱하는 핵심 기반입니다. 차세대 발견을 앞당기기 위해 과학자들은 신약 개발을 위한 복합분자, 잠재적인 에너지원을 위한 물리학, 극한의 기후 패턴을 더 효율적으로 예측하고 대비하기 위한 대기 데이터를 더 잘 이해하기 위해 시뮬레이션을 사용합니다. NVIDIA Tensor 코어는 FP64를 포함하는 전체 범위의 정밀도를 제공하여, 작업에 요구되는 최고 정확도로 과학 컴퓨팅을 가속합니다.

NVIDIA HPC SDK 는 NVIDIA 플랫폼용 HPC 애플리케이션을 개발하는 데 필수적인 컴파일러, 라이브러리, 도구로 구성된 포괄적인 제품군입니다.

A100 Tensor 코어

3세대

NVIDIA Tensor 코어 기술은 AI에 극적인 가속을 제공하여 트레이닝 시간을 몇 주에서 몇 시간으로 단축하고 추론에 대규모 가속을 제공합니다. NVIDIA Ampere 아키텍처는 성능을 막대하게 향상하고 연구자에게 필요한 전체 스펙트럼을 아우르는 TF32, FP64, FP16, INT8, INT4와 같은 새로운 정밀도를 제공하여 AI 채택을 가속화 및 단순화하고 NVIDIA Tensor 코어의 성능을 HPC로 확장합니다.

  • TF32
  • FP64
  • FP16
  • INT8
Tensor Float 32

Tensor Float 32

AI 네트워크 및 데이터세트가 기하급수적으로 계속 팽창함에 따라 컴퓨팅 수요도 마찬가지로 커졌습니다. 저정밀도 수학은 성능을 막대하게 가속시켰지만 역사적으로 몇 가지 코드 변경이 필요했었습니다. A100은 Tensor Float 32(TF32) 라는 새로운 정밀도를 사용하며, 이 정밀도는 아무런 코드 변경 없이 AI를 최대 20배로 가속하면서 FP32와 마찬가지로 작동합니다.

FP64 Tensor 코어

FP64 Tensor 코어

A100은 Tensor 코어의 성능을 HPC에 가져와 Tensor Cores to HPC 용 배정밀도 GPU 컴퓨팅을 도입한 이후로 역대 최대 이정표를 제공합니다. FP64 정밀도로 행렬 연산을 처리할 수 있게 되자, 배정밀도 수학이 필요한 전체 범위의 HPC 애플리케이션은 이제 이전 세대 GPU에 비해 성능과 효율성이 2.5배 커지게 되었습니다.

FP16 Tensor 코어

FP16 Tensor 코어

A100 Tensor Cores는 딥 러닝을 위해 FP16을 향상해 AI용 NVIDIA Volta™에 비해 2배의 가속 성능을 제공합니다. 이로써 처리량이 획기적으로 향상되고 컨버전스까지 소요되는 시간이 줄어듭니다.

INT8 정밀도

INT8 정밀도

NVIDIA Turing 에서 처음 도입된 INT8 Tensor 코어는 추론 처리량을 크게 가속하고 효율성을 막대하게 향상합니다. NVIDIA Ampere 아키텍처의 INT8은 프로덕션 배포 처리량의 경우, 비교 대상인 Volta의 처리량보다 10배 더 높습니다. 이러한 다양한 기능 덕분에 코어 및 엣지 데이터센터 에서 높은 배치 및 실시간 워크로드 모두에 대해 업계 최고의 성능을 달성할 수 있습니다

Turing Tensor 코어

2세대

NVIDIA Turing™ Tensor 코어 기술은 효율적인 AI 추론을 위한 다중 정밀도 컴퓨팅을 제공합니다. Turing Tensor 코어는 딥 러닝 트레이닝 및 추론을 위해 FP32, FP16, INT8에서 INT4에 이르는 다양한 정밀도를 제공하여 NVIDIA Pascal™ GPU에 비해 성능이 비약적으로 개선됩니다.

Turing Tensor 코어
Volta Tensor 코어

Volta Tensor 코어

1세대

특별히 딥 러닝을 위해 디자인된 NVIDIA Volta™의 1세대 Tensor 코어는 FP16 및 FP32에서 혼합 정밀도 행렬 곱셈으로 획기적인 성능을 보여줍니다. NVIDIA Pascal에 비해 최대 테라플롭스(TFLOPS)가 트레이닝에서는 12배 더 높고, 추론에서는 6배 더 높습니다. 이 핵심 기능을 통해 Volta는 Pascal에 비해 트레이닝 및 추론에서 성능 속도가 3배 더 높아집니다.

가장 강력한 엔드 투 엔드 AI 및 HPC 데이터센터 플랫폼

Tensor Cores는 하드웨어, 네트워킹, 소프트웨어, 라이브러리를 NGC™의 최적화된 AI 모델 및 애플리케이션과 통합하는 완전한 NVIDIA 데이터센터 솔루션의 필수적인 구성 요소입니다. 연구원은 가장 강력한 엔드 투 엔드 AI 및 HPC 플랫폼을 통해 실제 결과를 제공하고 솔루션을 규모에 맞게 프로덕션에 배포할 수 있습니다.

NVIDIA A100 NVIDIA Turing NVIDIA Volta
지원되는 Tensor 코어 정밀도 FP64, TF32, bfloat16, FP16, INT8, INT4, INT1 FP16, INT8, INT4, INT1 FP16
지원되는 CUDA® Core 코어 정밀도 FP64, FP32, FP16, bfloat16, INT8 FP64, FP32, FP16, INT8 FP64, FP32, FP16, INT8

NVIDIA TENSOR 코어 알아보기

웨비나에 참여하고 NVIDIA Tensor 코어 GPU에서 최적화된 성능을 달성하는데 필요한 사항을 확인하세요.