NVIDIA Tensor 코어

HPC 및 AI를 위한 전례 없는 가속화

Tensor 코어는 혼합 정밀도 컴퓨팅을 지원해 정확도를 유지하면서 처리량을 가속화할 수 있도록 계산을 동적으로 조정합니다. 최신 세대 Tensor 코어는 더욱 광범위한 AI 및 HPC(고성능 컴퓨팅) 작업을 그 어느 때보다 빠르게 처리합니다. 트랜스포머 네트워크 트레이닝에서 6배 향상된 속도, 모든 애플리케이션에서 3배 향상된 성능에 이르기까지, NVIDIA Tensor 코어는 모든 워크로드에 새로운 역량을 제공합니다.

혁신적인 AI 트레이닝

혁신적인 AI 트레이닝

AI 모델은 대화형 AI와 같은 차세대 도전 과제를 수행함에 따라 복잡성이 폭발적으로 커지고 있습니다. 방대한 모델을 FP32로 트레이닝하려면 몇 주에서 몇 달까지 걸릴 수 있습니다. NVIDIA Tensor 코어는 트랜스포머 엔진, TF32(Tensor Float 32) 및 FP16(16비트 부동 소수점)에서 FP8과 같은 감소된 정밀도에 대해 한 차원 높은 성능을 제공합니다. 또한 CUDA-X 라이브러리를 통한 기본 프레임워크의 직접적인 지원 덕분에 구현이 자동으로 이루어져 정확도를 유지하면서 트레이닝에서 컨버전스까지의 시간을 크게 단축할 수 있습니다.

NVIDIA는 Tensor 코어를 통해 MLPerf 산업 전반의 트레이닝용 벤치마크를 획득했습니다.

혁신적인 AI 추론

혁신적인 AI 추론

뛰어난 AI 추론 가속기는 탁월한 성능뿐만 아니라 다양한 뉴럴 네트워크를 가속하는 다용성과 개발자가 새 네트워크를 구축할 수 있는 프로그래밍 가능성을 제공할 수 있어야 합니다. 높은 수준의 처리량을 짧은 지연 시간으로 처리함과 동시에 활용률을 극대화하는 것이 추론을 안정적으로 배포하는 데 있어서 가장 중요한 성능 요구 사항입니다. NVIDIA Tensor 코어는 TF32, bfloat16, FP16, FP8, INT8과 같은 전체 범위 정밀도를 제공하므로 그 다용성과 성능이 타의 추종을 불허합니다. 

NVIDIA는 Tensor 코어를 통해 MLPerf 산업 전반의 추론용 벤치마크를 획득했습니다.

고급 HPC

고급 HPC

HPC는 현대 과학을 지탱하는 핵심 기반입니다. 차세대 발견을 앞당기기 위해 과학자들은 신약 개발을 위한 복합분자, 잠재적인 에너지원을 위한 물리학, 극한의 기후 패턴을 더 효율적으로 예측하고 대비하기 위한 대기 데이터를 더 잘 이해하기 위해 시뮬레이션을 사용합니다. NVIDIA Tensor 코어는 FP64를 포함하는 전체 범위의 정밀도를 제공하여, 작업에 요구되는 최고 정확도로 과학 컴퓨팅을 가속합니다.

HPC SDK는 NVIDIA 플랫폼용 HPC 애플리케이션 개발을 위한 필수 컴파일러, 라이브러리, 도구를 제공합니다.

NVIDIA H100 Tensor 코어

4세대

Tensor 코어 기술이 도입된 이래 NVIDIA GPU는 최고 성능을 60배 향상하여 AI 및 HPC를 위한 컴퓨팅의 보편화를 촉진해 왔습니다. NVIDIA Hopper™ 아키텍처는 새로운 FP8(8비트 부동 소수점 정밀도)를 사용하는 트랜스포머 엔진으로, 4세대 Tensor 코어를 발전시켜 FP16보다 6배 더 높은 성능으로 매개 변수 1조 개의 모델을 트레이닝합니다. TF32, FP64, FP16 및 INT8 정밀도를 사용하는 3배 이상의 성능과 결합된 Hopper Tensor 코어는 모든 워크로드에 최고의 속도 향상을 제공합니다.

  • FP8
  • TF32
  • FP64
  • FP16
  • INT8
FP8 Tensor 코어

FP8

트랜스포머 AI 네트워크의 트레이닝 시간은 대규모 수학 연산으로 인해 수개월로 늘어나고 있습니다. Hopper의 새로운 FP8 정확도를 통해 Ampere에서 FP16보다 최대 6배 높은 성능을 제공합니다. FP8은 트랜스포머 모델에 대한 트레이닝을 가속화하도록 특수 설계된 Hopper Tensor 코어 기술인 트랜스포머 엔진에서 활용됩니다. Hopper Tensor 코어는 FP8 및 FP16 정밀도의 혼합 형식을 적용하여 정확도를 유지하면서 트랜스포머 트레이닝을 위한 AI 연산을 대폭 가속화할 수 있습니다. FP8은 또한 Ampere보다 최대 30배 높은 성능으로 대규모 언어 모델의 추론 속도를 매우 큰 폭으로 향상할 수 있습니다.

Tensor Float 32

TF32

AI 네트워크 및 데이터세트가 기하급수적으로 계속 팽창함에 따라 컴퓨팅 수요도 마찬가지로 커졌습니다. 저정밀도 수학은 성능을 막대하게 가속시켰지만 역사적으로 몇 가지 코드 변경이 필요했습니다. H100은 FP32와 마찬가지로 작동하는 TF32 정밀도를 지원하는 동시에 코드 변경 없이 NVIDIA Ampere™ Tensor 코어 대비 최대 3배의 AI 속도 향상을 제공합니다.

FP64 Tensor 코어

FP64

H100은 그 어느 때보다 강력한 Tensor 코어의 성능을 HPC에 계속해서 제공합니다. H100의 FP64는 이전 세대 대비 3배 빨라진 성능으로 배정밀도 연산이 필요한 모든 HPC 애플리케이션을 한층 더 가속화합니다.

FP16 Tensor 코어

FP16

H100 Tensor 코어는 딥 러닝을 위해 FP16을 향상하여 NVIDIA Ampere 아키텍처의 Tensor 코어에 비해 3배 향상된 AI 속도를 제공합니다. 이로써 처리량이 획기적으로 향상되고 컨버전스까지 소요되는 시간이 줄어듭니다.

INT8

INT8

NVIDIA Turing™에서 최초로 도입된 INT8 Tensor 코어는 추론 처리량을 대폭 가속화하고 효율성을 크게 향상합니다. NVIDIA Hopper 아키텍처 INT8의 프로덕션 배포 처리량은 이전 세대 Tensor 코어보다 3배 더 높습니다. 이러한 다용성은 코어 및 엣지 데이터센터에서 높은 배치와 실시간 워크로드 모두에 대해 업계 최고의 성능을 제공합니다. 

NVIDIA Ampere 아키텍처 Tensor 코어

NVIDIA Ampere 아키텍처 Tensor 코어

3세대

NVIDIA Ampere 아키텍처 Tensor 코어는 새로운 정밀도인 TF32 및 FP64를 도입하여 이전 혁신을 기반으로 AI 채택을 가속화 및 단순화하고 Tensor 코어의 성능을 HPC로 확장합니다. 그리고 이 3세대 Tensor 코어는 bfloat16, INT8, INT4를 지원하여 AI의 트레이닝과 추론에 모두 활용할 수 있는 놀랍도록 범용성 높은 가속기를 생성합니다.

NVIDIA Turing Tensor 코어

2세대

NVIDIA Turing Tensor 코어 기술은 효율적인 AI 추론을 위한 다중 정밀도 컴퓨팅을 제공합니다. Turing Tensor 코어는 딥 러닝 트레이닝 및 추론을 위해 FP32, FP16, INT8에서 INT4에 이르는 다양한 정밀도를 제공하여 NVIDIA Pascal GPU에 비해 성능이 비약적으로 개선됩니다.

Turing Tensor 코어
Volta Tensor 코어

NVIDIA Volta Tensor 코어

1세대

특별히 딥 러닝을 위해 디자인된 NVIDIA Volta의 1세대 Tensor 코어는 FP16 및 FP32에서 혼합 정밀도 행렬 곱셈으로 획기적인 성능을 보여줍니다. NVIDIA Pascal에 비해 최대 테라플롭스(TFLOPS)가 트레이닝에서는 12배 더 높고, 추론에서는 6배 더 높습니다. 이 핵심 기능을 통해 Volta는 Pascal에 비해 트레이닝 및 추론에서 성능 속도가 3배 더 높아집니다.

가장 강력한 엔드 투 엔드 AI 및 HPC 데이터센터 플랫폼

Tensor 코어는 완전한 NVIDIA 데이터센터 솔루션의 필수 구성 요소이며, 하드웨어, 네트워킹, 소프트웨어, 라이브러리, NVIDIA NGC 카탈로그의 최적화된 AI 모델 및 애플리케이션을 통합합니다. 연구원은 가장 강력한 엔드 투 엔드 AI 및 HPC 플랫폼을 통해 실제 결과를 제공하고 솔루션을 규모에 맞게 프로덕션에 배포할 수 있습니다.

Hopper Ampere Turing Volta
지원되는 Tensor 코어 정밀도 FP64, TF32, bfloat16, FP16, FP8, INT8 FP64, TF32, bfloat16, FP16, INT8, INT4, INT1 FP16, INT8, INT4, INT1 FP16
지원되는 CUDA® 코어 정밀도 FP64, FP32, FP16, bfloat16, INT8 FP64, FP32, FP16, bfloat16, INT8 FP64, FP32, FP16, INT8 FP64, FP32, FP16, INT8

 예비 사양이며 변경될 수 있습니다

NVIDIA Hopper 아키텍처에 대해 자세히 알아보세요