NVIDIA T4

灵活的设计,惊人的性能

下一级推理加速已经到来

我们正面向未来砥砺前行。在未来,人工智能将会触及并改善与客户的每一次互动、每一种产品以及每一项服务。认识到未来需要一个能够加速现代人工智能各种应用的计算平台,使企业能够创造新的客户体验,重新构想他们如何满足和超越客户需求,并经济高效地扩展他们基于人工智能的产品和服务。

NVIDIA® T4 GPU 为不同的云端工作负载提供加速,其中包括高性能计算、深度学习训练和推理、机器学习、数据分析和图形学。T4 基于新型 NVIDIA Turing™ 架构,采用节能高效(70 瓦)的小尺寸 PCIe 封装,它已针对主流计算环境进行优化,并配备多精度 Turing Tensor Core 和新的 RT Core。与来自 NGC 的加速容器化软件堆栈相结合,T4 可提供大规模的革命性性能。

Virtual Compute-Intensive Server Workloads

虚拟计算密集型服务器工作负载

借助 NVIDIA Virtual Compute Server (vCS),您能实现 GPU 的虚拟化并加速计算密集型服务器工作负载(包括 AI、深度学习和数据科学)。这样,汽车制造商可以利用新的模拟和计算技术来创造更省油、更时尚的设计,而研究人员可以分析基因的功能,更快地开发出治疗方法。

新的合作伙伴关系推动混合云的发展,从而为现代企业工作负载提供动力。

极具突破性的推理性能

T4 引入革命性的 Turing Tensor Core 技术,使用多精度计算应对不同的工作负载。从 FP32 到 FP16,再到 INT8 和 INT4 的精度,T4 的性能比 CPU 高出 40 倍,实现了性能的重大突破。

Breakthrough Inference Performance

了解如何基于 TENSOR CORE 使用混合精度来加速 AI 模型

先进的实时推理

响应性是提高用户参与度的关键,范围涉及诸多服务,例如:会话式人工智能、推荐系统和可视化搜索。随着模型准确性和复杂性的提高,目前立即交付正确答案所需的计算能力也在呈指数级提升。T4 可提供 优于 40 倍的低延时高吞吐量,进而可以实时满足更多的请求。

T4 推理性能

Resnet50

DeepSpeech2

GNMT

视频转码性能

随着在线视频的数量呈指数级增长,人们对有效搜索以及从视频中获取洞察力的解决方案的需求也与日俱增。T4 为人工智能视频应用提供极具突破性的性能,其专用的硬件转码引擎将解码性能提升至上一代 GPU 的两倍。T4 可以解码多达 38 个全高清视频流,从而可以轻松地将可扩展的深度学习集成到视频管线中,以提供创新的智能视频服务。

NVIDIA T4 规格

 

性能

320 个 Turing Tensor Core

2,560 个 NVIDIA CUDA® 核心

单精度性能 (FP32)
8.1 TFLOPS

混合精度 (FP16/FP32)
65 FP16 TFLOPS

INT8 精度
130 INT8 TOPS

INT4 精度
260 INT4 TOPS

 
 

互联

Gen3
x16 PCIe

 
 

内存

容量
16 GB GDDR6

带宽
320+ GB/s

 
 

功率

70

 

NVIDIA 人工智能推理平台

探索世界上极其领先的推理平台。