NVIDIA TENSOR 코어

차세대 딥 러닝

NVIDIA® Tesla® GPU는 획기적인 AI 성능을 선보이는 혁신적인 기술인 Tensor 코어에 의해 구동됩니다. Tensor 코어는 AI의 심장부와도 같은 대규모 행렬 연산을 가속할 수 있으며, 단일 연산으로 혼합 정밀도 행렬 곱셈 및 누적 계산을 수행할 수 있습니다. 수백 개의 Tensor 코어는 NVIDIA GPU에서 병렬로 작업하며 처리량과 효율성을 엄청나게 높입니다.

Turing Tensor 코어 구동 NVIDIA T4

획기적인 추론 효율성


Turing Tensor 코어 기반의 NVIDIA T4

Tesla T4는 세계에서 가장 효율적인 인공지능(AI) 추론을 위해 다중 정밀도 컴퓨팅 기술과 함께 NVIDIA Turing Tensor 코어 기술을 소개합니다. Turing Tensor 코어는 NVIDIA Pascal® GPU를 뛰어넘는 성능을 전달하기 위해 INT4와 마찬가지로 FP32에서 FP16에 이르는 광범위한 추론을 가능케 합니다.

가장 효율적인 딥 러닝 플랫폼

T4는 FP32, FP16, INT8, INT4에서 획기적인 딥 러닝 트레이닝 성능을 제공하며 추론을 위한 이진 정밀도를 제공합니다. INT8의 80TOPS(테라옵스)와 160TOPS를 갖춘 T4는 세계에서 가장 높은 추론 효율성을 자랑하며, CPU에 비해 성능이 40배 더 높으며 전력 소모량이 기존의 60%밖에 되지 않습니다. 불과 75W(와트)를 사용하는 T4는 첨단 스케일아웃 서버에 최적인 솔루션입니다.

T4 INFERENCE PERFORMANCE

Resnet50

DeepSpeech2

GNMT

Volta Tensor 코어 구동 NVIDIA V100 GPU

세계에서 가장 많은 딥 러닝 처리량


Volta Tensor 코어 구동 NVIDIA V100 GPU

특별히 딥 러닝을 위해 디자인된 Volta의 1세대 Tensor 코어는 FP16 및 FP32에서 혼합 정밀도 행렬 곱셈으로 획기적인 성능을 보여줍니다. 이전 세대 NVIDIA Pascal™에 비해 트레이닝에서 최대 TFLOPS(테라플롭스)가 최대 12배 더 높고, 추론에서 최대 TFLOPS가 6배 더 높습니다. 이 핵심 기능을 통해 Volta는 Pascal에 비해 트레이닝 및 추론에서 성능이 3배 향상되었습니다.

Tesla V100에 있는 각 640개의 Tensor 코어는 4x4 매트릭스에서 작동하며, 관련 데이터 경로는 에너지 고효율로 세계에서 가장 빠른 부동 소수점 컴퓨팅 처리량을 보이도록 맞춤 설계되었습니다.

획기적인 트레이닝 및 추론 방식

Deep Learning Training in Less Than a Workday

Volta에는 640개의 Tensor 코어가 장착되어 있으며, 각 코어는 클럭당 64개의 부동 소수점 FMA(Fused-Multiply-Add) 연산을 수행합니다. 그래서 트레이닝 및 추론 애플리케이션을 위해 최대 125TFLOPS를 제공합니다. 즉, 개발자는 FP32 누적과 FP16 컴퓨팅의 혼합 정밀도를 사용하여 이전 세대에 비해 3배의 속도 향상과 네트워크의 예상 정확도 수준으로의 수렴을 달성하여 딥 러닝 트레이닝을 실행할 수 있습니다. 이 3배의 성능 향상이 Tensor 코어 기술의 핵심적인 혁신입니다. 이제는 딥 러닝을 단 몇 시간 만에 수행할 수 있습니다.

27X Higher Throughput than CPU Server on Deep Learning Inference

효율성 및 성능 가속화

추론의 경우 Tesla V100은 이전 세대보다 성능 이점이 3배 더 높으며 CPU 기반 서버보다 47배 더 빠릅니다. NVIDIA TensorRT™ 프로그래밍 가능한 추론 가속기를 사용할 때 나타나는 이러한 속도 증가치는 대부분 혼합 정밀도를 사용하여 추론 작업을 가속하는 Tensor 코어 덕분입니다.

컴퓨팅 성능의 매우 큰 향상

Tensor 코어 및 NVIDIA Volta 아키텍처에 대한 백서를 읽어 보십시오.