NVIDIA VOLTA의 TENSOR 코어

차세대 딥 러닝

NVIDIA® Tesla® V100 GPU는 혁신적인 새로운 GPU 아키텍처인 NVIDIA Volta를 기반으로 합니다. 스트리밍 멀티프로세서는 이전 세대의 NVIDIA® PascalTM보다 50% 더 에너지 효율적이어서 32비트 부동 소수점 정밀도(FP32) 및 64비트 부동 소수점 정밀도(FP64) 성능을 크게 향상합니다. 그러나 가장 큰 발전은 무엇일까요? 바로 Tensor 코어의 도입입니다.

트레이닝 및 추론에서의 혁신

딥 러닝을 위해 특별히 설계된 Tensor 코어는 트레이닝을 위한 최대 12배의 테라플롭스(TFLOPS) 및 추론을 위한 최대 6배의 테라플롭스라는 혁신적인 성능을 제공합니다 이 핵심 기능을 통해 Volta는 이전 세대에 비해 트레이닝 및 추론에서 성능이 3배 향상되었습니다.

Tesla V100에 있는 각 64개의 Tensor 코어는 4x4 매트릭스에서 작동하며, 관련 데이터 경로는 높은 에너지 효율로 부동 소수점 컴퓨팅 처리량을 크게 높일 수 있도록 맞춤 설계되었습니다.

효율성 및 성능 가속화

효율성 및 성능 가속화

Volta에는 640개의 Tensor 코어가 장착되어 있으며, 각 코어는 클럭당 64개의 부동 소수점 FMA(Fused-Multiply-Add) 연산을 수행합니다. 그래서 트레이닝 및 추론 애플리케이션을 위해 최대 125TFLOPS를 제공합니다. 즉, 개발자는 FP32 누적과 FP16 컴퓨팅의 혼합 정밀도를 사용하여 이전 세대에 비해 3배의 속도 향상과 네트워크의 예상 정확도 수준으로의 수렴을 달성하여 딥 러닝 트레이닝을 실행할 수 있습니다.

이 3배의 성능 향상이 Tensor 코어 기술의 핵심적인 혁신입니다. 이제는 딥 러닝을 단 몇 시간 만에 수행할 수 있습니다.

컴퓨팅 성능의 매우 큰 향상

Tensor 코어 및 NVIDIA Volta 아키텍처에 대한 백서를 읽어 보십시오.