NVIDIA TENSOR 코어

차세대 딥 러닝

NVIDIA® Tesla® GPU는 획기적인 AI 성능을 선보이는 혁신적인 기술인 Tensor 코어에 의해 구동됩니다. Tensor 코어는 AI의 심장부와도 같은 대규모 행렬 연산을 가속할 수 있으며, 단일 연산으로 혼합 정밀도 행렬 곱셈 및 누적 계산을 수행할 수 있습니다. 수백 개의 Tensor 코어는 NVIDIA GPU에서 병렬로 작업하며 처리량과 효율성을 엄청나게 높입니다.

Turing Tensor 코어 구동 NVIDIA T4

획기적인 추론 효율성


Turing Tensor 코어 구동 NVIDIA T4

Tesla T4 는 세계에서 가장 효율적인 AI 추론을 위한 다중 정밀도 컴퓨팅을 갖춘 NVIDIA Turing Tensor 코어 기술을 선보입니다. Turing은 이전 세대 NVIDIA Volta™ 에 비해 추론 효율성 속도 증가치가 INT8에선 2배, INT4에선 4배 더 높습니다.

가장 효율적인 딥 러닝 플랫폼

T4는 FP32, FP16, INT8, INT4에서 획기적인 딥 러닝 트레이닝 성능을 제공하며 추론을 위한 이진 정밀도를 제공합니다. INT8의 80TOPS(테라옵스)와 160TOPS를 갖춘 T4는 세계에서 가장 높은 추론 효율성을 자랑하며, CPU에 비해 성능이 40배 더 높으며 전력 소모량이 기존의 60%밖에 되지 않습니다. 불과 75W(와트)를 사용하는 T4는 첨단 스케일아웃 서버에 최적인 솔루션입니다.

T4 INFERENCE PERFORMANCE

Resnet50

DeepSpeech2

GNMT

Volta Tensor 코어 구동 NVIDIA V100 GPU

세계에서 가장 많은 딥 러닝 처리량


Volta Tensor 코어 구동 NVIDIA V100 GPU

특별히 딥 러닝을 위해 디자인된 Volta의 1세대 Tensor 코어는 FP16 및 FP32에서 혼합 정밀도 행렬 곱셈으로 획기적인 성능을 보여줍니다. 이전 세대 NVIDIA Pascal™에 비해 트레이닝에서 최대 TFLOPS(테라플롭스)가 최대 12배 더 높고, 추론에서 최대 TFLOPS가 6배 더 높습니다. 이 핵심 기능을 통해 Volta는 Pascal에 비해 트레이닝 및 추론에서 성능이 3배 향상되었습니다.

Tesla V100에 있는 각 640개의 Tensor 코어는 4x4 매트릭스에서 작동하며, 관련 데이터 경로는 에너지 고효율로 세계에서 가장 빠른 부동 소수점 컴퓨팅 처리량을 보이도록 맞춤 설계되었습니다.

획기적인 트레이닝 및 추론 방식

Deep Learning Training in Less Than a Workday

Volta에는 640개의 Tensor 코어가 장착되어 있으며, 각 코어는 클럭당 64개의 부동 소수점 FMA(Fused-Multiply-Add) 연산을 수행합니다. 그래서 트레이닝 및 추론 애플리케이션을 위해 최대 125TFLOPS를 제공합니다. 즉, 개발자는 FP32 누적과 FP16 컴퓨팅의 혼합 정밀도를 사용하여 이전 세대에 비해 3배의 속도 향상과 네트워크의 예상 정확도 수준으로의 수렴을 달성하여 딥 러닝 트레이닝을 실행할 수 있습니다. 이 3배의 성능 향상이 Tensor 코어 기술의 핵심적인 혁신입니다. 이제는 딥 러닝을 단 몇 시간 만에 수행할 수 있습니다.

27X Higher Throughput than CPU Server on Deep Learning Inference

효율성 및 성능 가속화

추론의 경우 Tesla V100은 이전 세대보다 성능 이점이 3배 더 높으며 CPU 기반 서버보다 47배 더 빠릅니다. NVIDIA TensorRT™ 프로그래밍 가능한 추론 가속기를 사용할 때 나타나는 이러한 속도 증가치는 대부분 혼합 정밀도를 사용하여 추론 작업을 가속하는 Tensor 코어 덕분입니다.

컴퓨팅 성능의 매우 큰 향상

Tensor 코어 및 NVIDIA Volta 아키텍처에 대한 백서를 읽어 보십시오.