NVIDIA TensorRT 超大规模推理平台

助推新一波采用 AI 技术的服务

深度学习推理平台 NVIDIA® Tesla® GPU 和NVIDIA TensorRT,世界最为快捷高效的平台,可助您直面挑战。NVIDIA 推理平台支持所有深度学习工作负载,能够提供绝佳的推理解决方案,即能够结合超高吞吐量、出色的效率和灵活性来助力各种 AI 驱动体验。

数据中心推理视频

Snap 的货币化算法会给我们的广告商和股东带来激起重要的影响。NVIDIA T4 助力的 GPU 可在 Google GCP 上进行推理,帮助我们增加广告宣传效果,而且对比使用 CPU,还帮助降低了成本。

-Snap Monetization Group 工程总监 Nima Khajehnouri

Pinterest 使用顶尖计算机视觉技术,让大家对超过 1750 亿个引脚的复杂程度有了深刻认识。我们依靠 GPU 训练和评估我们的识别模型,并进行实时推理。

-  视觉搜索技术负责人 Andrew Zhai

GPU 的应用实现了我们平台的媒体认识,这不仅大幅减少媒体深度学习模型的训练时间,还让我们在推理期间,能够实时了解直播视频。

- Twitter

PayPal 需要 GPU 加速部署我们新推出的全球系统,并借此实现之前不可能实现的各种功能。

- PayPal 首席技术官兼高级副总裁 Sri Shivananda

Snap 的货币化算法会给我们的广告商和股东带来激起重要的影响。NVIDIA T4 助力的 GPU 可在 Google GCP 上进行推理,帮助我们增加广告宣传效果,而且对比使用 CPU,还帮助降低了成本。

-Snap Monetization Group 工程总监 Nima Khajehnouri

Pinterest 使用顶尖计算机视觉技术,让大家对超过 1750 亿个引脚的复杂程度有了深刻认识。我们依靠 GPU 训练和评估我们的识别模型,并进行实时推理。

-  视觉搜索技术负责人 Andrew Zhai

GPU 的应用实现了我们平台的媒体认识,这不仅大幅减少媒体深度学习模型的训练时间,还让我们在推理期间,能够实时了解直播视频。

- Twitter

PayPal 需要 GPU 加速部署我们新推出的全球系统,并借此实现之前不可能实现的各种功能。

- PayPal 首席技术官兼高级副总裁 Sri Shivananda

NVIDIA 数据中心推理产品

TESLA T4

NVIDIA® Tesla® T4 GPU 能够加速各种云端工作负载,包括高性能计算、深度学习训练和推理、机器学习、数据分析和图形处理。T4 已针对横向扩展服务器和横向扩展计算环境实现优化,其依托 NVIDIA 的全新 Turing™ 架构,且在封装时采用小型 PCIe 外形规格,同时能够获得 70 瓦的高能效。

deep-learning-ai-inference-platform-t4-background-2560-0912-ud

TESLA T4

NVIDIA® Tesla® T4 GPU 能够加速各种云端工作负载,包括高性能计算、深度学习训练和推理、机器学习、数据分析和图形处理。T4 已针对横向扩展服务器和横向扩展计算环境实现优化,其依托 NVIDIA 的全新 Turing™ 架构,且在封装时采用小型 PCIe 外形规格,同时能够获得 70 瓦的高能效。


适用于通用数据中心的 TESLA V100

Tesla V100 的每个 GPU 均可提供 125 teraflops 的推理性能。 配有 8 块 Tesla V100 的单个服务器可实现 1 petaflop 的计算性能。


适用于超高效外扩型服务器的 TESLA P4

Tesla P4 可加快任何外扩型服务器的运行速度,能效高达 CPU 的 60 倍,令人十分震撼。


适用于推理吞吐量服务器的 TESLA P40

Tesla P40 可提供出色的推理性能、INT8 精度和 24GB 板载内存,打造卓越的用户体验。

NVIDIA 数据中心计算软件

NVIDIA TensorRT

NVIDIA TensorRT 是一个高性能神经网络推理平台,相较于 CPU 架构,可将推荐系统、语音识别和机器翻译等多种应用程序的推理速度提升至 40 倍。

NVIDIA TensorRT 推理服务器

NVIDIA TensorRT Inference Server 是一个微型服务器,可用于简化在数据中心生产环境中部署 AI 推理的流程。TensorRT 推理服务器支持主流 AI 模型,并利用 Docker 和 Kubernetes 无缝集成至 DevOps 架构。使用时,该服务器既可作为 NGC 容器注册表中可即时部署的容器,也可作为开源项目

NVIDIA GPU 上的 Kubernetes

企业还可通过 NVIDIA GPU 上的 Kubernetes,将训练和推理部署无缝扩展到多云 GPU 集群。借助 Kubernetes,可将经 GPU 加速的深度学习和高性能计算 (HPC) 应用程序迅速部署到多云 GPU 集群。

DeepStream SDK

NVIDIA DeepStream 是专为极为复杂的智能视频分析 (IVA) 打造的应用程序框架。开发者现在可以将精力放在构建核心深度学习网络上,而不需要从头开始设计端到端应用程序(已提供模块化框架)和硬件加速构建模块。

特性和优势

十分先进的 AI 推理平台

NVIDIA Tesla T4 具备全球顶尖的推理效率,最多可达 CPU 推理效率的 40 倍。T4 可通过专用的硬件加速视频转码引擎对多达 39 路同步高清视频流进行实时分析。NVIDIA T4 在提供以上所有性能的情况下仅会耗费 70 瓦 (W) 功率,这使其成为业内主流服务器的首选推理解决方案。

吞吐量提高 24 倍以适应不断增加的工作负载

借助搭载 NVIDIA Volta 的 Tesla V100 GPU,数据中心的深度学习工作负载吞吐量得以大幅提升,因而能够从当今海量数据中提取有效信息。在处理深度学习推理工作负载方面,一台配备单块 Tesla V100 的服务器可以代替多达 50 台 CPU 服务器,在大幅提升吞吐量的同时还能显著降低购买成本。

通过 NVIDIA TensorRT 和 DeepStream SDK 大幅提高性能

NVIDIA TensorRT 优化器和运行时引擎可为推荐系统、语音识别和图像分类等应用程序提供低延迟和高吞吐量。借助 TensorRT,可对使用 32 位或 16 位数据训练的模型进行优化,以在 Tesla T4 和 P4 上执行 INT8 运算,或在 Tesla V100 上执行 FP16 运算。NVIDIA DeepStream SDK 利用 Tesla GPU 的强大功能,可以同时解码和分析视频流。

提供高吞吐量推理,以实现 GPU 使用率的最大化

NVIDIA TensorRT 推理服务器可提供高吞吐量的数据中心推理,并有助您充分利用 GPU。NVIDIA TensorRT 推理服务器可作为即用型容器提供,它是一个微型服务器,可并行运行 Caffe2、NVIDIA TensorRT、TensorFlow 等模型,以及一块或多块 GPU 上支持 ONNX 标准的任何框架。

性能规格

Tesla T4:世界领先的推理加速器 Tesla V100:通用数据中心 GPU 适用于超高效、外扩型服务器的 Tesla P4 适用于推理吞吐量服务器的 Tesla P40
单精度性能 (FP32) 8.1 TFLOPS 14 TFLOPS (PCIe)
15.7 teraflops (SXM2)
5.5 TFLOPS 12 TFLOPS
半精度性能 (FP16) 65 TFLOPS 112 TFLOPS (PCIe)
125 TFLOPS (SXM2)
整数运算能力 (INT8) 130 TOPS 22 TOPS* 47 TOPS*
整数运算能力 (INT4) 260 TOPS
GPU 显存 16GB 32/16GB HBM2 8GB 24GB
显存带宽 320GB/秒 900GB/秒 192GB/秒 346GB/秒
系统接口/外形规格 PCI Express 半高外形 PCI Express 双插槽全高外形 SXM2/NVLink PCI Express 半高外形 PCI Express 双插槽全高外形
功率 70 W 250 W (PCIe)
300 W (SXM2)
50 W/75 W 250 W
硬件加速视频引擎 1 个解码引擎,2 个编码引擎 1 个解码引擎,2 个编码引擎 1 个解码引擎,2 个编码引擎

*启用加速频率的每秒万亿次运算次数

客户案例

语音识别

减少语音识别应用程序的响应时间,同时保持运行 TensorRT 软件的 NVIDIA Tesla GPU 的准确性。

图像和视频处理

利用 NVIDIA DeepStream SDK 和 Tesla GPU,更大限度地提高图像和视频处理工作负载的吞吐效率。

推荐系统

在 NVIDIA GPU 平台上运行基于深度学习的神经协作过滤应用程序,提高推荐预测准确性。

立即优化您的深度学习推理解决方案。

您可立即购买 Tesla V100、P4 和 P40 进行深度学习推理。