助力新级别
的用户参与

提高深度学习推理工作负载的吞吐量和响应体验。

AI 不断面临的挑战是,在应对呈爆炸性增长的数据量的同时,仍然提供快速响应。您可使用运行 NVIDIA® TensorRTTM 的 NVIDIA® Tesla®(全球超快的高效数据中心推理平台)迎接挑战。Tesla 支持所有深度学习工作负载,并提供绝佳的推理解决方案,即结合极高吞吐量、出色效率和较高灵活性来提升由 AI 驱动的体验。TensorRT 发挥出 Tesla GPU 的性能优势并为 NVIDIA DeepStream SDK 和 Attis 推理服务器产品提供基石,这些产品可托管多种应用程序,如视频流、语音和推荐系统。

推理成功案例

语音识别

减少语音识别应用程序的响应时间,同时保持运行 TensorRT 软件的 NVIDIA Tesla GPU 的准确性。

图像和视频处理

利用 NVIDIA DeepStream SDK 和 Tesla GPU,更大限度地提高图像和视频处理工作负载的吞吐效率。

推荐系统

在 NVIDIA GPU 平台上运行基于深度学习的神经协作过滤应用程序,提高推荐预测准确性。

NVIDIA 数据中心推理平台


适用于通用数据中心的 Tesla V100

Tesla V100 的每个 GPU 均可提供 125 万亿次浮点运算推理性能。配有 8 个 Tesla V100 的单个服务器可以进行千万亿次计算。


适用于超高效外扩型服务器的 Tesla P4

Tesla P4 可加快任何外扩型服务器的运行速度,其能效比 CPU 提高了 60 倍,非常令人震撼。


适用于推理吞吐量服务器的 Tesla P40

Tesla P40 提供出色的推理性能、INT8 精度和 24GB 板载内存,打造卓越的用户体验。

NVIDIA 数据中心计算软件

NVIDIA TensorRT

NVIDIA TensorRT™ 是一款高性能神经网络推理加速器,与 CPU 相比,能将应用程序(如推荐系统、语音识别和机器翻译)的运行速度提升 100 倍。  TensorRT 为开发者提供相关功能,以优化神经网络模型、利用高精度校正较低精度,以及将模型部署到企业和超大规模数据中心的生产环境中。

DeepStream SDK

适用于 Tesla 的 NVIDIA DeepStream 是一款 SDK,可用于为智能城市和超大规模数据中心开发基于深度学习的可扩展智能视频分析 (IVA) 应用程序。它成功地将用于推理的 NVIDIA TensorRT、用于转码的视频编解码器 SDK、预处理以及数据监护 API 融为一体,以充分利用 Tesla GPU 的强大功能。例如,在 Tesla P4 GPU 上,您可以同时解码并分析多达 30 路的实时高清视频流。

ATTIS 推理服务器

NVIDIA® 推理服务器为 DevOps 人员和数据中心经理提供在数据中心或云中运行推理服务(针对 NVIDIA GPU 进行优化)所需的一切。ATTIS 通过优化利用服务器上的 CPU 和 GPU 以更大限度提高推理应用程序的性能。DevOps 人员可以通过简单的 REST API,利用同构或异构 GPU 架构将推理应用程序部署到多个 GPU 中。

NVIDIA GPU 上的 Kubernetes

企业可通过 NVIDIA GPU 上的 Kubernetes,将训练和推理部署无缝扩展到多云 GPU 集群。借助 Kubernetes,可立即将 GPU 加速深度学习和 HPC 应用程序部署到多云 GPU 集群。

特性和优势

吞吐量提高 50 倍以适应不断增加的工作负载

借助采用 Volta 架构的 Tesla V100 GPU,数据中心的深度学习工作负载吞吐量得以大幅提升,以便从海量数据中提取有效信息。在处理深度学习推理工作负载方面,一台配备单块 Tesla V100 的服务器可以代替多达 50 台仅使用 CPU 的服务器,在大幅提升吞吐量的同时还能显著降低购买成本。

低功耗外扩型服务器的超高能效

凭借小巧的外形和 50/75W 的功耗设计,超高效的 Tesla P4 GPU 可加快经过密度优化的外扩型服务器的运行速度。该显卡还可为深度学习推理工作负载提供比 CPU 高 52 倍的惊人能效,因此超大规模客户能够在其现有基础架构内进行扩展,并满足对 AI 应用程序的指数级需求增长。

专用于新型
AI 视频服务的解码引擎

Tesla P4 GPU 可实时分析多达 39 路的高清视频流。此产品配备专用的硬件加速解码引擎,可与执行推理的 NVIDIA CUDA® 核心并行运行。通过将深度学习集成到管线,客户可以提供有利于视频搜索和其他与视频相关的服务的新型智能化创新功能。

使用 NVIDIA TensorRT 和 DeepStream SDK 加快部署速度

NVIDIA TensorRT 是一款高性能神经网络推理 加速器,用于在生产环境中部署深度学习应用程序,如推荐系统、语音识别和机器翻译。借助 TensorRT,可对以 32 位或 16 位数据训练的神经网络进行优化,以在 Tesla P4 上执行降低精度的 INT8 运算,或在 Tesla V100 上执行 FP16 运算。NVIDIA DeepStream SDK 利用 Tesla GPU 的强大功能,可以同时解码和分析视频流。

性能规格

Tesla V100:通用数据中心型 GPU 适用于超高效外扩型服务器的 Tesla P4 适用于推理吞吐量服务器的 Tesla P40
单精度性能 (FP32) 14 万亿次浮点运算 (PCIe)
15.7 万亿次浮点运算 (SXM2)
5.5 万亿次浮点运算 12 万亿次浮点运算
半精度性能 (FP16) 112 万亿次浮点运算 (PCIe)
125 万亿次浮点运算 (SXM2)
整数运算能力 (INT8) 22 TOPS* 47 TOPS*
GPU 显存 16 GB HBM2 8 GB 24 GB
内存带宽 900 GB/s 192 GB/s 346 GB/s
系统界面/外形尺寸 PCI Express 双插槽全高外形 SXM2/NVLink PCI Express 半高外形 PCI Express 双插槽全高外形
功率 250 W (PCIe)
300 W (SXM2)
50 W/75 W 250 瓦
硬件加速视频引擎 1 个解码引擎、2 个编码引擎 1 个解码引擎、2 个编码引擎

*Tera-Operations per Second with Boost Clock Enabled

立即优化您的深度学习推理解决方案。

您可立即购买 Tesla V100、P4 和 P40 进行深度学习推理。