사용자 참여를 새로운 차원으로 강화

딥 러닝 추론 워크로드에서 처리량 및 반응형 경험을 대폭으로 향상

AI는 끊임없이 많은 양의 데이터를 처리하면서도 빠른 응답을 제공해야 합니다. 세계에서 가장 빠르고 효율적인 데이터센터 추론 플랫폼인 NVIDIA TensorRT 를 실행하는 NVIDIA® Tesla® GPU의 도전 과제를 직접 마주하십시오. Tesla는 모든 딥 러닝 워크로드를 지원하며 최고의 처리량, 최고의 효율성 및 최상의 유연성을 결합하여 AI 기반 경험을 제공하는 최적의 추론 솔루션을 제공합니다. TensorRT는 Tesla GPU의 성능을 발휘하고, 비디오 스트리밍, 음성, 추천자 시스템 등의 다양한 애플리케이션을 서비스하는 NVIDIA DeepStream SDK 및 NVIDIA 추론 서버 제품의 기반을 제공합니다.

NVIDIA 데이터센터 추론 플랫폼

TESLA T4

NVIDIA® T4 GPU는 고성능 컴퓨팅, 딥 러닝 트레이닝 및 추론, 머신 러닝, 데이터 분석, 그래픽 등과 같은 다양한 클라우드 워크로드를 가속화합니다. 새로운 NVIDIA Turing™ 아키텍처에 기반하며 에너지 효율적인 70W 소형 PCIe 폼 팩터에 패키징된 T4는 스케일아웃 서버 스케일아웃 컴퓨팅 환경에 최적화되었습니다. 그리고 T4는 다중 정밀도 Turing Tensor 코어와 새로운 RT 코어를 탑재하여, NVIDIA GPU Cloud가 제공하는 가속화 컨테이너화 소프트웨어 스택과 결합하여 혁신적인 대규모 성능을 제공합니다.

deep-learning-ai-inference-platform-t4-background-2560-0912-ud

TESLA T4

NVIDIA® T4 GPU는 고성능 컴퓨팅, 딥 러닝 트레이닝 및 추론, 머신 러닝, 데이터 분석, 그래픽 등과 같은 다양한 클라우드 워크로드를 가속화합니다. 새로운 NVIDIA Turing™ 아키텍처에 기반하며 에너지 효율적인 70W 소형 PCIe 폼 팩터에 패키징된 T4는 스케일아웃 서버 스케일아웃 컴퓨팅 환경에 최적화되었습니다. 그리고 T4는 다중 정밀도 Turing Tensor 코어와 새로운 RT 코어를 탑재하여, NVIDIA GPU Cloud가 제공하는 가속화 컨테이너화 소프트웨어 스택과 결합하여 혁신적인 대규모 성능을 제공합니다.

TESLA V100
범용 데이터센터용

Tesla V100은 GPU당 125테라플롭스의 추론 성능을 제공합니다. 8개의 Tesla V100이 있는 단일 서버는 페타플롭스 컴퓨팅 성능을 제공할 수 있습니다.

TESLA P4
초고효율 스케일아웃 서버용

Tesla P4는 모든 유형의 스케일아웃 서버를 가속화하도록 개발되어 CPU 대비 60배 높은 경이로운 에너지 효율성을 제공합니다.

TESLA P40
추론 처리 서버용

Tesla P40은 뛰어난 사용자 환경을 위해 뛰어난 추론 성능, INT8 정밀도 및 24GB 온보드 메모리를 제공합니다.

NVIDIA 데이터센터 컴퓨팅 소프트웨어

NVIDIA TensorRT

NVIDIA TensorRT 는 추천자, 음성 인식, 기계 번역 등의 애플리케이션 속도를 CPU에 비해 100배 더 증가시킬 수 있는 고성능 신경망 추론 가속기입니다. TensorRT는 개발자에게 신경망 모델을 최적화하고 더 낮은 정밀도를 높은 정확도로 교정하며 신경망 모델을 엔터프라이즈 및 하이퍼스케일 데이터센터의 프로덕션 환경에 배포할 수 있는 능력을 제공합니다.

NVIDIA 추론 서버

NVIDIA 추론 서버는 Kubernetes에 GPU 가속 추론을 가져옵니다. 이 서버는 데이터센터 프로덕션에서 애플리케이션이 AI 모델을 사용할 수 있게 하는 컨테이너화된 추론 마이크로서비스입니다. 이 서버는 GPU 사용률을 극대화하고 모든 인기 있는 AI 모델과 프레임워크를 지원하며 데브옵스 아키텍처에 원활히 통합되도록 설계되었습니다.

NVIDIA GPU의 Kubernetes

NVIDIA GPU의 Kubernetes 는 엔터프라이즈가 트레이닝 및 추론 배포 규모를 다중 클라우드 GPU 클러스터로 원활히 확장할 수 있게 합니다. Kubernetes를 사용하면 GPU 가속 딥 러닝 및 고성능 컴퓨팅(HPC) 애플리케이션을 다중 클라우드 GPU 클러스터에 즉시 배포할 수 있습니다.

DeepStream SDK

NVIDIA DeepStream 는 스마트 도시와 하이퍼스케일 데이터센터에 사용할 딥 러닝 기반의 확장 가능한 지능형 비디오 분석(IVA) 애플리케이션을 구축하는 SDK입니다. 이는 추론용 NVIDIA TensorRT, 트랜스코딩용 비디오 코덱 SDK, 전처리, 데이터 큐레이션 API를 함께 제공하여 Tesla GPU의 성능을 활용합니다. 예를 들어 Tesla P4 GPU에서 최대 30 HD 비디오 스트림을 실시간으로 동시에 디코드하고 분석할 수 있습니다.

기능 및 이점

가장 진화된 AI 추론 플랫폼

NVIDIA Turing Tensor 코어 기반의 Tesla T4는  FP32, FP16, INT8, 그리고 INT4 정밀도에서 추론을 위한 혁신적인 딥 러닝 훈련 성능을 제공합니다. INT8의 130 TeraOPS (TOPS) 및  INT4의 260TOPS와 함께, T4는 CPU 대비 40배가 넘는 세계 최고의 추론 효율성을 보여줌과 동시에, 75 와트 (W)라는 불과 60%의 전력 소모를 보여줍니다. 이것은 최첨단에서 스케일 아웃(scale-out) 서버를 위한 이상적인 솔루션입니다.

27 배 빠른 처리량으로 폭발적으로 증가하는 워크로드 소화 가능

NVIDIA Volta™ 구동 Tesla V100 GPU를 사용하면 데이터센터가 딥 러닝 워크로드 처리량을 현저히 높일 수 있으며, 오늘날의 데이터 홍수 속에서 인텔리전스를 추출할 수 있습니다. 딥 러닝 워크로드 처리에서, 단 한 개의 Tesla V100을 탑재한 서버 한 대가 CPU로만 구성된 서버를 최대 50대까지 대체할 수 있어 처리량을 대폭 높이는 동시에 취득 비용을 절감할 수 있습니다.

새로운 AI 기반 동영상 서비스에 적합한 전용 디코드 엔진

Tesla P4 GPU는 실시간으로 최대 39개의 HD 비디오 스트림을 분석할 수 있습니다. 전용 하드웨어 가속 디코드 엔진으로 구동되므로 추론을 수행하는 NVIDIA CUDA® 코어와 병렬로 작동합니다. 딥 러닝을 파이프라인에 통합함으로써, 고객은 새로운 차원의 스마트하고 혁신적인 기능을 사용자들에게 제공하여 동영상 검색과 다른 동영상 관련 서비스를 원활하게 제공할 수 있습니다.

NVIDIA TensorRT 및 DeepStream SDK로 더욱 빨라진 배포

NVIDIA TensorRT 는 추천자 시스템, 음성 인식, 기계 번역과 같은 딥 러닝 애플리케이션의 프로덕션 배포를 위한 고성능 신경망 추론 가속기입니다. TensorRT를 사용하면 32비트 또는 16비트 데이터로 트레이닝된 신경망을 Tesla P4의 정밀도 감소 INT8 연산 또는 Tesla V100의 FP16 연산에 맞게 최적화할 수 있습니다. NVIDIA DeepStream SDK 는 Tesla GPU의 성능을 조절해 디코드와 동영상 스트림 분석이 동시에 이루어지도록 합니다.

GPU 사용률을 극대화하고 모든 상위 프레임워크를 지원하는 추론

NVIDIA 추론 서버는 솔루션에서 추론을 활용하기 쉽게 만들며 GPU를 최대한 활용할 수 있게 지원합니다. 바로 실행 가능한 컨테이너를 통해 제공되는 NVIDIA 추론 서버는 TensorFlow, MXNet, Caffe2, MATLAB, NVIDIA TensorRT 중 어떤 조합의 모델이든 또는 ONNX 표준을 지원하는 모든 프레임워크에서 간단한 REST(Representational State Transfer) API를 통해 추론을 수행하는 마이크로서비스입니다.

성능 사양

Tesla T4: 세계에서 가장 진화된 추론 가속기 Tesla V100: 범용 데이터센터 GPU 초고효율 스케일아웃 서버용 Tesla P4 추론 처리 서버용 Tesla P40
단일 정밀도 성능(FP32) 8.1 테라플롭스 14 테라플롭스(PCIe) 15.7테라플롭스(SXM2) 5.5 테라플롭스 12 테라플롭스
절반 정밀도 성능(FP16) 65 FP16 테라플롭스 112테라플롭스(PCIe) 125테라플롭스(SXM2)
정수 연산(INT8) 130 INT8 TOPS 22 TOPS* 47 TOPS*
GPU 메모리 16GB 16 GB HBM2 8 GB 24 GB
메모리 대역폭 320GB/s 900 GB/s 192 GB/s 346 GB/s
시스템 인터페이스/폼 팩터 로우-프로필(Low-Profile) PCI 익스프레스 폼 팩터 듀얼 슬롯, 풀하이트 PCI Express 폼 팩터 SXM2 / NVLink 로우 프로필 PCI Express 폼 팩터 듀얼 슬롯, 풀하이트 PCI Express 폼 팩터
전력 75 W 250 W (PCIe)
300 W (SXM2)
50 W/75 W 250 W
하드웨어 가속 동영상 엔진 디코드 엔진 1개, 인코드 엔진 2개 디코드 엔진 1개, 인코드 엔진 2개 디코드 엔진 1개, 인코드 엔진 2개

*부스트 클럭 사용 시의 테라옵스

고객 사례

음성 인식

TensorRT 소프트웨어를 실행하는 NVIDIA Tesla GPU에서 음성 인식 앱의 응답 시간은 더 적으면서 정확도는 높게 유지합니다.

이미지 및 비디오 처리

NVIDIA DeepStream SDK 및 Tesla GPU로 이미지 및 비디오 처리 워크로드의 처리 효율성을 극대화합니다.

추천자 시스템

NVIDIA GPU 플랫폼에서 실행되는 딥 러닝 기반 신경 협업 필터링 앱의 추천자 예측 정확도가 증가합니다.

지금 딥 러닝 추론 솔루션을 최적화하십시오.

지금 딥 러닝 추론용 Tesla V100, T4 및 P40을 구매하실 수 있습니다.