NVIDIA T4

유연한 디자인, 획기적인 성능

한 단계 높은 추론 가속화가 등장했습니다

우리는 제공되는 모든 고객 상호작용과 모든 제품 그리고 모든 서비스가 AI의 손길을 거치고 개선되는 미래를 향해 나아가고 있습니다. 이러한 미래에는 기업이 새로운 고객 경험을 새롭게 구상할 수 있도록 해주는 최첨단 AI의 모든 다양성을 가속화할 수 있는 컴퓨팅 플랫폼이 필요하다는 것을 인식할 때, 어떻게 고객의 요구사항을 만족하고 이를 뛰어넘으며 AI 기반 제품 및 서비스를 비용 효과적으로 확장할 수 있을까요?

NVIDIA® T4 GPU는 고성능 컴퓨팅, 딥 러닝 트레이닝 및 추론, 머신 러닝, 데이터 분석, 그래픽 등과 같은 다양한 클라우드 워크로드를 가속화합니다. 새로운 NVIDIA Turing™ 아키텍처에 기반하며 에너지 효율적인 70W 소형 PCIe 폼 팩터에 패키징된 T4는 스케일아웃 컴퓨팅 환경에 최적화되었으며 다중 정밀도 Turing Tensor 코어와 새로운 RT 코어를 탑재하고 있습니다. T4는 NGC가 제공하는 가속화 컨테이너화 소프트웨어 스택과 결합하여 혁신적인 대규모 성능을 제공합니다.

획기적인 성능

T4는 다양한 워크로드에 대처하기 위한 다중 정밀도 컴퓨팅을 갖춘 혁신적인 Turing Tensor 코어 기술을 선보입니다. FP32, FP16, INT8에서 INT4 정밀도까지 획기적인 성능을 보여주는 T4는 CPU보다 최대 40배 더 높은 성능을 발휘합니다.

Breakthrough Inference Performance

실시간으로 제공되는 최첨단 추론

사용자가 대화형 AI, 추천자 시스템, 시각적 검색 등의 서비스에 몰입하려면 반응성이 그 핵심입니다. 모델들의 정확도와 복잡도가 점점 커지면서 올바른 대답을 하려면 이제 기하급수적으로 커진 컴퓨팅 성능이 필요합니다. T4는 대기 시간이 40배 더 개선된 처리량을 제공하므로 더 적은 수의 GPU 가속 서버로 더 많은 요청을 실시간으로 처리할 수 있습니다.

T4 추론 성능

Resnet50

DeepSpeech2

GNMT

비디오 트랜스코딩 성능

온라인 동영상의 수가 계속 기하급수적으로 증가함에 따라 동영상을 검색하고 그 안에서 인사이트를 얻기 위한 수요도 계속 성장하고 있습니다. T4는 이전 세대 GPU보다 2배 향상된 디코딩 성능을 제공하는 전용 하드웨어 트랜스코딩 엔진을 통해 AI 동영상 애플리케이션을 위한 혁신적인 성능을 제공합니다. T4는 최대 38개의 풀 HD급 동영상 스트림을 디코드할 수 있으므로 확장 가능한 딥 러닝을 동영상 파이프라인에 통합하여 혁신적이고 스마트한 동영상 서비스를 제공할 수 있습니다.

NVIDIA T4 사양

 

성능

Turing Tensor 코어
320

NVIDIA CUDA® 코어
2,560

Single Precision Performance (FP32)
8.1 TFLOPS

Mixed Precision (FP16/FP32)
65 FP16 TFLOPS

INT8 정밀도
130 INT8 TOPS

INT4 정밀도
260 INT4 TOPS

 
 

상호 연결

Gen3
x16 PCIe

 
 

메모리

Capacity
16 GB GDDR6

대역폭
320+ GB/s

 
 

전력

70 watts

 

NVIDIA AI 추론 플랫폼

세계에서 가장 발달한 추론 플랫폼 탐색