先进的神经网络可能有数百万乃至十亿以上的参数需要通过反向传播进行调整。此外,它们需要大量的训练数据才能实现较高的准确度,这意味着成千上万乃至数百万的输入样本必须同时进行向前和向后传输。由于神经网络由大量相同的神经元构建而成,因此本质上具有高度并行性。这种并行性会自然地映射到 GPU,因而相较于仅使用 CPU 的神经网络训练,GPU 会使计算速度大幅增加。
由于能够加速系统,GPU 现已成为训练基于神经网络的大型复杂系统的理想平台。鉴于神经网络在业界和学术界与日俱增的重要性以及 GPU 的核心地位,NVIDIA 已建立名为 cuDNN 的基本类型库,该库可助力使用者轻松获得出色的深度神经网络性能。
推理运算的并行性质也使其十分宜于在 GPU 上执行。为优化、验证和部署推理网络,NVIDIA 研发了推理平台加速器和运行时引擎,称作 TensorRT。TensorRT 可实现低延迟、高吞吐量的推理,并能调整运行时应用程序,以理想方式在不同系列的 GPU 上运行。