Video Player is loading.
Current Time 0:00
Duration 0:00
Loaded: 0%
Stream Type LIVE
Remaining Time 0:00
 
1x
    • Chapters
    • descriptions off, selected
    • subtitles off, selected

      基于吞吐优先的测试方法以提高各类 CUDA 工作负载的吞吐数值

      , GPU 计算团队专家, NVIDIA
      , Developer Technology Engineer, NVIDIA
      测试和比较不同硬件平台之间的性能是一项挑战性的任务,尤其是公平地比较 GPU 和 CPU 之间的性能。多数时候,都会选择以延迟为唯一的衡量标准来进行优化,但这种方式并不是对所有的场景都适用。因为某些应用场景追求的是在满足延迟限制要求的前提下,尽可能地提升应用的吞吐能力。尽管已经有许多测试吞吐的工具,例如 NVIDIA Triton Inference Server;但如何高效地利用这些工具来分析和优化各类 GPU 工作负载仍然是一个难题。例如,如何确定并发程度、请求速率、在延迟约束的条件下提高吞吐、支持不同的 GPU 工作负载的并发方式(如多进程、单进程多流等)等软件、硬件组合。在本次演讲中,我们提出了一种吞吐优先的测试工具,来解决上述问题。其可以充分利用每个平台的所有硬件资源,并且能够在延迟约束的条件下追求更高的吞吐数值。结合 Nsight System 和 Nsight Compute 分析工具,使用我们的测试方法来对 CUDA 应用负载进行测试分析,可以显著提升各类 CUDA 应用在 GPU 上的吞吐表现。在演讲的后半部分,我们将介绍几个案例研究,以说明我们是如何使用这种测试方法来优化信息检索、推荐系统和其他真实场景的性能。
      活动: GTC 24
      日期: March 2024
      行业: 所有行业
      NVIDIA 技术: Cloud / Data Center GPU,CUDA,Hopper,Nsight Compute,Nsight Systems
      级别: 中级技术
      话题: Performance Optimization
      语言: 简体中文
      所在地: